网页抓取，屏幕抓取，数据挖掘技巧？

我正在研究一个项目，我需要做很多屏幕抓取才能尽快获得大量数据。我想知道是否有人知道任何好的API或资源来帮助我。

顺便说一下，我正在使用java。

这是我的工作流程到目前为止：

思考：

如果你还没弄明白，这是我第一次搞乱这个问题，所以我很难说清楚我的需求是什么。我非常感谢任何以前做过此事的人的任何意见。

我发现JSoup非常适合HTML解析。

有关更多指示，请查看本文：如何编写multithreadingwebcrawler

我使用Bixo来提取超链接和进行深度搜索的图像。它构建了hadoop和级联，因此有一个学习曲线，但提供的示例足以配置更改…

尝试使用Web-Harvest项目。

结帐JSR-237 for Work Management，这是一个很酷的想法，当multithreading。

至于刮擦，有几种选择。如果易用性是最重要的，我建议您使用HTMLUnit。除此之外，你必须自己动手