Tag: web mining

如何从网页中提取文本内容？: 我正在开发一个java应用程序，它可以从不同的网页获取文本信息，并将其汇总到一个页面。例如，假设我在不同的网页上有新闻，如印度教，印度时报，政治家等。现在我的应用程序应该从这些页面的每一个中提取重要点，并将它们作为单个新闻组合在一起。应用程序基于Web内容挖掘的概念。作为该领域的初学者，我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步。所以，如果给我一个新闻网页，第一步是从页面中提取主要新闻，不包括超链接，广告，无用图像等。我的问题是我该怎么做？请给我一些很好的教程，解释使用Web内容挖掘实现这种应用程序。或者至少给我一些提示如何实现它？

Web挖掘或抓取或爬行？我应该使用什么工具/库？: 我想抓取并将一些网页保存为HTML。比如说，爬进数百个热门网站，只需保存他们的前台和“关于”页面。我调查了很多问题，但是没有从网页抓取或网页抓取问题中找到答案。我应该使用什么库或工具来构建解决方案？或者甚至有一些现有的工具可以处理这个？

Interesting Posts

Rhino和并发访问javax.script.ScriptEngine

Java计划执行程序的未处理exception

Eclipse无法在公司代理后面更新Maven索引

Java isRollover（）方法在我的swing应用程序中不会产生事件

@BeforeClass和@AfterClass在每次测试之前和之后调用

将ws-security添加到wsdl2java生成的类中

Java 2D Game：repaint（）; 使窗口变灰

Java – 多个输入文件

无法连接Microsoft Azure Vm中的端口

动态添加RemoteViews的布局权重

Java – 检查数组是否包含3个连续日期

如何在Selenium WebDriver中选择li里面的锚标签？

使用Hibernate / Spring / JUnit设置和删除复杂数据库状态

如何在android中将黑色透明放在图像上

如何从一个x，y坐标动画到另一个？（爪哇/处理）