Tag: scraping crawler4j

提高crawler4j的性能: 我需要编写一个webscraper，它可以擦除大约1M个网站并将其标题，描述和关键字保存到一个大文件中（包含已删除的URL和相关的单词）。应从大文件中提取URL。我在1M URL文件上运行了Crawler4j，并使用以下命令启动了webcrawler： controller.start(MyCrawler.class, 20) 。 20是任意数。每个爬网程序将生成的单词传递到阻塞队列，以便单个线程将这些单词和URL写入文件。我使用了1个编写器线程，以便不在文件上同步。我将爬网深度设置为0（我只需要抓取我的种子列表）运行这个晚上后，我只下载了大约200K的URL。我正在使用有线连接在一台机器上运行刮刀。由于大多数URL都是不同的主机，我不认为礼貌参数在这里有任何重要性。编辑我尝试使用非阻塞启动启动Crawler4j，但它刚被阻止。我的Crawler4j版本是：4.2。这是我正在使用的代码： CrawlConfig config = new CrawlConfig(); List headers = Arrays.asList( new BasicHeader(“Accept”, “text/html,text/xml”), new BasicHeader(“Accept-Language”, “en-gb, en-us, en-uk”) ); config.setDefaultHeaders(headers); config.setCrawlStorageFolder(crawlStorageFolder); config.setMaxDepthOfCrawling(0); config.setUserAgentString(“testcrawl”); config.setIncludeBinaryContentInCrawling(false); config.setPolitenessDelay(10); PageFetcher pageFetcher = new PageFetcher(config); RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = […]

Interesting Posts

我应该使用什么java库进行图像裁剪/ letterboxing？

Struts MVC架构中的混乱

用于在Java中查找DOM元素的绝对位置的代码

弹簧控制器中的圆形视图

使用托盘将java maven项目部署到ec2？

无法在JTextPane中删除html内容中的额外行间距

是否有适当的算法来检测图形的背景颜色？

OSGi Fragment包含Hibernate，具有Runtime pojos

Java KeyListener – 如何检测是否按下任何键？

JComboBox中每个项目的多种颜色

从FTPClient.getModificationTime（）解析日期字符串

AOP Spring @AfterReturning无法按预期工作

在这种情况下，是否会抛出此AssertionError？

Java Enum toString（）方法

如何通过JPA注释指定SQL注释？