Nutch API建议

我正在开发一个项目,我需要一个成熟的爬虫来完成一些工作,而我正在为此目的评估Nutch。 我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫,我需要它能够只重新抓取站点的更新资源并跳过已经爬行的部分。 有没有人有任何直接在Java中使用Nutch代码的经验,而不是通过命令行。 我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没什么特别的。 有一些例子,或者我应该看一些资源? 我正在浏览Nutch文档,但大多数是关于命令行,搜索和其他东西。 Nutch爬行模块如何可用而无需索引和搜索? 任何帮助表示赞赏。 谢谢。

Nutch与你最常见的非常不同。 因为它就像一个框架,它不仅具有查询和搜索的前端,而且solr似乎比本机Nutch搜索前端更强大。 它还具有爬行部分和索引(进入Lucene索引)。

如果您希望将爬网用于搜索以外的其他目的,则需要开发自己的程序并熟悉Hadoop和MapReduce编程。

不确定你想要对你的爬行做什么,但它看起来不像Nutch是解决方案