Tag: web crawler

运行Nutch 2时连接被拒绝错误: 我试图在我的系统上运行Nutch 2爬虫，但是我收到以下错误： Exception in thread “main” org.apache.gora.util.GoraException: java.io.IOException: java.sql.SQLTransientConnectionException: java.net.ConnectException: Connection refused at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:135) at org.apache.nutch.storage.StorageUtils.createWebStore(StorageUtils.java:69) at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:243) at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) at org.apache.nutch.crawl.Crawler.run(Crawler.java:136) at org.apache.nutch.crawl.Crawler.run(Crawler.java:250) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawler.main(Crawler.java:257) Caused by: java.io.IOException: java.sql.SQLTr ansientConnectionException: java.net.ConnectException: Connection refused at org.apache.gora.sql.store.SqlStore.getConnection(SqlStore.java:747) at org.apache.gora.sql.store.SqlStore.initialize(SqlStore.java:160) at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:102) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:161) … 8 more Caused by: java.sql.SQLTransientConnectionException: java.net.ConnectException: Connection refused […]

用scrapy进行数据抓取: 我想制作一个新的投注工具，但我需要一个赔率和结果的数据库，在网络上找不到任何东西。我发现这个网站有很棒的档案： OddsPortal 我想做的就是从上面的页面中抓取结果和赔率。我发现一个名为Scrapy的工具可以做到，是真的吗？有人可以帮我提一些提示吗？

使用光圈抓取打开的Web浏览器数据的任何可能性: 我使用Aperture了解抓取网站。如果我在mozila网页浏览器中打开http://demo.crawljax.com/ 。如何使用Aperture抓取打开的浏览器内容。步骤：1。在你的mozila firefox上打开http://demo.crawljax.com/ 。 2.执行java程序来抓取打开的mozila firefox选项卡。

如何在Crawljax中获取爬网内容: 我使用Crawljax抓取动态网页。我能够获取抓取当前ID，状态和dom。但我无法获得网站内容..任何人帮助我？ CrawljaxConfigurationBuilder builder = CrawljaxConfiguration.builderFor(“http://demo.crawljax.com/”); builder.addPlugin(new OnNewStatePlugin() { @Override public String toString() { return “Our example plugin”; } @Override public void onNewState(CrawlerContext cc, StateVertex sv) { LOG.info(“Found a new dom! Here it is:\n{}”, cc.getBrowser().getStrippedDom()); String name = cc.getCurrentState().getName(); String url = cc.getBrowser().getCurrentUrl(); System.out.println(cc.getCurrentState().getDom()); System.out.println(“New State: ” + name + “; url: ” + […]

在循环内调用控制器（crawler4j-3.5）: 嗨我在for-loop调用controller ，因为我有超过100个url，所以我在列表中有所有，我将迭代并crawl页面，我也设置了setCustomData的url，因为它不应该离开域。 for (Iterator iterator = ifList.listIterator(); iterator.hasNext();) { String str = iterator.next(); System.out.println(“cheking”+str); CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); controller.setCustomData(str); controller.addSeed(str); controller.startNonBlocking(BasicCrawler.class, numberOfCrawlers); controller.waitUntilFinish(); } 但是如果我运行上面的代码，在第二个url开始之后第一个url完全爬行并且打印错误如下所示。 50982 [main] INFO edu.uci.ics.crawler4j.crawler.CrawlController – Crawler 1 started. 51982 [Crawler 1] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager – Connection request: [route: {}->http://www.connectzone.in][total kept alive: 0; route allocated: 0 of 100; total […]

如何修复HTTP错误提取URL。在抓取时java中的状态= 500？: 我试图从评论页面抓取用户对imdb影院电影的评级:(我数据库中的电影数量约为600,000）。我使用jsoup解析页面如下:(对不起，我没有在这里写完整个代码，因为它太长了） try { //connecting to mysql db ResultSet res = st .executeQuery(“SELECT id, title, production_year ” + “FROM title ” + “WHERE kind_id =1 ” + “LIMIT 0 , 100000”); while (res.next()){ ……. ……. String baseUrl = “http://www.imdb.com/search/title?release_date=” + “”+year+”,”+year+”&title=”+movieName+”” + “&title_type=feature,short,documentary,unknown”; Document doc = Jsoup.connect(baseUrl) .userAgent(“Mozilla”) .timeout(0).get(); ….. ….. //insert ratings into database […]

Nutch API建议: 我正在开发一个项目，我需要一个成熟的爬虫来完成一些工作，而我正在为此目的评估Nutch。我目前的需求相对简单：我需要一个能够将数据保存到磁盘的爬虫，我需要它能够只重新抓取站点的更新资源并跳过已经爬行的部分。有没有人有任何直接在Java中使用Nutch代码的经验，而不是通过命令行。我想从简单开始：创建一个爬虫（或类似的），最低限度地配置它并启动它，没什么特别的。有一些例子，或者我应该看一些资源？我正在浏览Nutch文档，但大多数是关于命令行，搜索和其他东西。 Nutch爬行模块如何可用而无需索引和搜索？任何帮助表示赞赏。谢谢。

JSoup使用未关闭的标记解析无效的HTML: 使用JSoup包含最后一个版本1.7.2，有一个错误解析带有未关闭标记的无效 HTML。例： String tmp = “LinkError link”; Jsoup.parse(tmp); 生成的文档是： Link Error link 浏览器会生成以下内容： Link Error link Jsoup应该作为浏览器或源代码。有什么解决方案吗？查看API我没有找到任何东西。

Web挖掘或抓取或爬行？我应该使用什么工具/库？: 我想抓取并将一些网页保存为HTML。比如说，爬进数百个热门网站，只需保存他们的前台和“关于”页面。我调查了很多问题，但是没有从网页抓取或网页抓取问题中找到答案。我应该使用什么库或工具来构建解决方案？或者甚至有一些现有的工具可以处理这个？

Lucene爬虫（它需要构建lucene索引）: 我正在寻找用java编写的Apache Lucene网络爬虫（如果可能或任何其他语言）。爬虫必须使用lucene并创建一个有效的lucene索引和文档文件，所以这就是为什么nutch被淘汰的原因…… 有没有人知道这样的网络爬虫存在，如果答案是肯定的，我可以找到它。 TNX …