从url中检索信息

我想制作一个程序，将一些信息检索到一个url。例如，我从下面给出了url

如何检索“TAGS”选项卡下方的所有单词，如

Black Library幻想Thanquol＆Boneripper Thanquol和Bone Ripper Warhammer？

我正在考虑使用java，并设计一个数据挖掘包装器，但我不知道如何启动。有人能给我一些建议吗？

编辑：你给了我很好的帮助，但我想问别的。对于每个标签，当我们按下“数字”按钮时，我们可以看到每个标签的使用次数。我该如何检索该号码呢？

您可以使用像Jsoup这样的HTML解析器。它允许您使用简单的CSS选择器选择感兴趣的HTML元素：

例如

Document document = Jsoup.connect("http://www.librarything.com/work/9767358/78536487").get(); Elements tags = document.select(".tags .tag a"); for (Element tag : tags) { System.out.println(tag.text()); }

打印

 Black Library fantasy Thanquol & Boneripper Thanquol and Bone Ripper Warhammer

请注意，您应该阅读网站的robots.txt如果有的话 – 阅读网站的服务条款 – 如果有的话 – 或者您的服务器迟早会被IP禁止。

我在使用PHP进行页面抓取之前完成了这个，然后使用正则表达式将HTML解析为字符串。

这里的例子

我想在java和其他语言中有类似的东西。这个概念类似：

加载页面数据。
解析数据（即使用正则表达式，或通过DOM模型并使用一些CSS选择器或一些XPath选择器）。
用数据做你想做的事:)

值得记住的是，有些人可能不会欣赏您对其网站进行数据挖掘并大规模获利/重新分配它。

从url中检索信息

用Java运行Python脚本

如何使用注释在SpringMVC中创建默认方法？

Java中的Inplace Quicksort

插入Java编译器

为什么我们需要Java中的抽象类？

tomcat请求的资源（）不可用

正则表达式替换为匹配的计数

在Java应用程序中集成RapidMiner

如何避免java.lang.OutOfMemoryError：Netbeans中的PermGen空间

如何检查所有用户登录到我的应用程序