robots.txt解析器java

我想知道如何解析java中的robots.txt。

有代码吗?

Heritrix是一个用Java编写的开源Web爬虫。 通过他们的javadoc,我看到他们有一个实用程序类Robotstxt来解析robots.txt文件。

在SourceForge上还有jrobotx库 。

(完全披露:我剥离了构成该库的代码。)

还有一个新版本的crawler-commons:

https://github.com/crawler-commons/crawler-commons

该库旨在实现任何Web爬虫的通用function,这包括一个非常方便的robots.txt解析器