用Java提取HTML数据
我有类似于的HTML代码:
1 Value 1 2 Value 2 3 Value 3 4 Value 4
现在我想提取数据如下:
1 : Value 1 2 : Value 2 3 : Value 3 4 : Value 4
有什么想法吗?
如本文所述,您不应该使用正则表达式来解析HTML。
请改用XML / HTML解析器。
假设html格式正确,您可以使用HtmlUnit解析html。
如果只有一个表,您也可以编写自己的正则表达式来处理页面,但我强烈建议不要这样做,因为如果页面添加了额外的表,正则表达式可能会给出奇怪的结果,而使用HtmlUnit,您可以validation页面只有在您开始解析或只是定位您想要的表之前的单个表。
http://htmlcleaner.sourceforge.net/
http://jericho.htmlparser.net/docs/index.html
是众所周知的java的html解析器。 你可以使用它们中的任何一个。