robots.txt解析器java
我想知道如何解析java中的robots.txt。
有代码吗?
Heritrix是一个用Java编写的开源Web爬虫。 通过他们的javadoc,我看到他们有一个实用程序类Robotstxt来解析robots.txt文件。
在SourceForge上还有jrobotx库 。
(完全披露:我剥离了构成该库的代码。)
还有一个新版本的crawler-commons:
https://github.com/crawler-commons/crawler-commons
该库旨在实现任何Web爬虫的通用function,这包括一个非常方便的robots.txt解析器