从url中检索信息

我想制作一个程序,将一些信息检索到一个url。 例如,我从下面给出了url

如何检索“TAGS”选项卡下方的所有单词,如

Black Library幻想Thanquol&Boneripper Thanquol和Bone Ripper Warhammer?

我正在考虑使用java,并设计一个数据挖掘包装器,但我不知道如何启动。 有人能给我一些建议吗?

编辑:你给了我很好的帮助,但我想问别的。 对于每个标签,当我们按下“数字”按钮时,我们可以看到每个标签的使用次数。 我该如何检索该号码呢?

您可以使用像Jsoup这样的HTML解析器。 它允许您使用简单的CSS选择器选择感兴趣的HTML元素:

例如

Document document = Jsoup.connect("http://www.librarything.com/work/9767358/78536487").get(); Elements tags = document.select(".tags .tag a"); for (Element tag : tags) { System.out.println(tag.text()); } 

打印

 Black Library fantasy Thanquol & Boneripper Thanquol and Bone Ripper Warhammer 

请注意,您应该阅读网站的robots.txt如果有的话 – 阅读网站的服务条款 – 如果有的话 – 或者您的服务器迟早会被IP禁止。

我在使用PHP进行页面抓取之前完成了这个,然后使用正则表达式将HTML解析为字符串。

这里的例子

我想在java和其他语言中有类似的东西。 这个概念类似:

  1. 加载页面数据。
  2. 解析数据(即使用正则表达式,或通过DOM模型并使用一些CSS选择器或一些XPath选择器)。
  3. 用数据做你想做的事:)

值得记住的是,有些人可能不会欣赏您对其网站进行数据挖掘并大规模获利/重新分配它。