Tag: web crawler

运行Nutch 2时连接被拒绝错误

我试图在我的系统上运行Nutch 2爬虫,但是我收到以下错误: Exception in thread “main” org.apache.gora.util.GoraException: java.io.IOException: java.sql.SQLTransientConnectionException: java.net.ConnectException: Connection refused at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:135) at org.apache.nutch.storage.StorageUtils.createWebStore(StorageUtils.java:69) at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:243) at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) at org.apache.nutch.crawl.Crawler.run(Crawler.java:136) at org.apache.nutch.crawl.Crawler.run(Crawler.java:250) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawler.main(Crawler.java:257) Caused by: java.io.IOException: java.sql.SQLTr ansientConnectionException: java.net.ConnectException: Connection refused at org.apache.gora.sql.store.SqlStore.getConnection(SqlStore.java:747) at org.apache.gora.sql.store.SqlStore.initialize(SqlStore.java:160) at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:102) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:161) … 8 more Caused by: java.sql.SQLTransientConnectionException: java.net.ConnectException: Connection refused […]

用scrapy进行数据抓取

我想制作一个新的投注工具,但我需要一个赔率和结果的数据库,在网络上找不到任何东西。 我发现这个网站有很棒的档案: OddsPortal 我想做的就是从上面的页面中抓取结果和赔率。 我发现一个名为Scrapy的工具可以做到,是真的吗? 有人可以帮我提一些提示吗?

使用光圈抓取打开的Web浏览器数据的任何可能性

我使用Aperture了解抓取网站。 如果我在mozila网页浏览器中打开http://demo.crawljax.com/ 。 如何使用Aperture抓取打开的浏览器内容。 步骤:1。在你的mozila firefox上打开http://demo.crawljax.com/ 。 2.执行java程序来抓取打开的mozila firefox选项卡。

如何在Crawljax中获取爬网内容

我使用Crawljax抓取动态网页。 我能够获取抓取当前ID,状态和dom。 但我无法获得网站内容..任何人帮助我? CrawljaxConfigurationBuilder builder = CrawljaxConfiguration.builderFor(“http://demo.crawljax.com/”); builder.addPlugin(new OnNewStatePlugin() { @Override public String toString() { return “Our example plugin”; } @Override public void onNewState(CrawlerContext cc, StateVertex sv) { LOG.info(“Found a new dom! Here it is:\n{}”, cc.getBrowser().getStrippedDom()); String name = cc.getCurrentState().getName(); String url = cc.getBrowser().getCurrentUrl(); System.out.println(cc.getCurrentState().getDom()); System.out.println(“New State: ” + name + “; url: ” + […]

在循环内调用控制器(crawler4j-3.5)

嗨我在for-loop调用controller ,因为我有超过100个url,所以我在列表中有所有,我将迭代并crawl页面,我也设置了setCustomData的url,因为它不应该离开域。 for (Iterator iterator = ifList.listIterator(); iterator.hasNext();) { String str = iterator.next(); System.out.println(“cheking”+str); CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); controller.setCustomData(str); controller.addSeed(str); controller.startNonBlocking(BasicCrawler.class, numberOfCrawlers); controller.waitUntilFinish(); } 但是如果我运行上面的代码,在第二个url开始之后第一个url完全爬行并且打印错误如下所示。 50982 [main] INFO edu.uci.ics.crawler4j.crawler.CrawlController – Crawler 1 started. 51982 [Crawler 1] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager – Connection request: [route: {}->http://www.connectzone.in][total kept alive: 0; route allocated: 0 of 100; total […]

如何修复HTTP错误提取URL。 在抓取时java中的状态= 500?

我试图从评论页面抓取用户对imdb影院电影的评级:(我数据库中的电影数量约为600,000)。 我使用jsoup解析页面如下:(对不起,我没有在这里写完整个代码,因为它太长了) try { //connecting to mysql db ResultSet res = st .executeQuery(“SELECT id, title, production_year ” + “FROM title ” + “WHERE kind_id =1 ” + “LIMIT 0 , 100000”); while (res.next()){ ……. ……. String baseUrl = “http://www.imdb.com/search/title?release_date=” + “”+year+”,”+year+”&title=”+movieName+”” + “&title_type=feature,short,documentary,unknown”; Document doc = Jsoup.connect(baseUrl) .userAgent(“Mozilla”) .timeout(0).get(); ….. ….. //insert ratings into database […]

Nutch API建议

我正在开发一个项目,我需要一个成熟的爬虫来完成一些工作,而我正在为此目的评估Nutch。 我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫,我需要它能够只重新抓取站点的更新资源并跳过已经爬行的部分。 有没有人有任何直接在Java中使用Nutch代码的经验,而不是通过命令行。 我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没什么特别的。 有一些例子,或者我应该看一些资源? 我正在浏览Nutch文档,但大多数是关于命令行,搜索和其他东西。 Nutch爬行模块如何可用而无需索引和搜索? 任何帮助表示赞赏。 谢谢。

JSoup使用未关闭的标记解析无效的HTML

使用JSoup包含最后一个版本1.7.2,有一个错误解析带有未关闭标记的 无效 HTML。 例: String tmp = “LinkError link”; Jsoup.parse(tmp); 生成的文档是: Link Error link 浏览器会生成以下内容: Link Error link Jsoup应该作为浏览器或源代码。 有什么解决方案吗? 查看API我没有找到任何东西。

Web挖掘或抓取或爬行? 我应该使用什么工具/库?

我想抓取并将一些网页保存为HTML。 比如说,爬进数百个热门网站,只需保存他们的前台和“关于”页面。 我调查了很多问题,但是没有从网页抓取或网页抓取问题中找到答案。 我应该使用什么库或工具来构建解决方案? 或者甚至有一些现有的工具可以处理这个?

Lucene爬虫(它需要构建lucene索引)

我正在寻找用java编写的Apache Lucene网络爬虫(如果可能或任何其他语言)。 爬虫必须使用lucene并创建一个有效的lucene索引和文档文件,所以这就是为什么nutch被淘汰的原因…… 有没有人知道这样的网络爬虫存在,如果答案是肯定的,我可以找到它。 TNX …