用Java提取HTML数据

我有类似于的HTML代码:

1  Value 1  2  Value 2  3  Value 3  4  Value 4  

现在我想提取数据如下:

 1 : Value 1 2 : Value 2 3 : Value 3 4 : Value 4 

有什么想法吗?

如本文所述,您应该使用正则表达式来解析HTML。

请改用XML / HTML解析器。

假设html格式正确,您可以使用HtmlUnit解析html。

如果只有一个表,您也可以编写自己的正则表达式来处理页面,但我强烈建议不要这样做,因为如果页面添加了额外的表,正则表达式可能会给出奇怪的结果,而使用HtmlUnit,您可以validation页面只有在您开始解析或只是定位您想要的表之前的单个表。

http://htmlcleaner.sourceforge.net/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

是众所周知的java的html解析器。 你可以使用它们中的任何一个。

Interesting Posts