我需要解析非格式良好的xml数据（HTML）

我在JAVA中有一些格式不正确的xml（HTML）数据，我使用了JAXP Dom，但它抱怨道。

问题是：有没有办法使用JAXP来解析这些文件？

我有一个包含以下数据的文件：

并不是的。 JAXP需要格式良好的标记。您是否考虑过Cyberneko HTML Parser ？我们在我们的商店非常成功。

编辑：我看到你也想解析XML。 Hrmm …. Cyberneko适用于HTML，但我不了解其他人。它有一个标签平衡器可以关闭一些标签，但我不知道你是否可以训练它来识别不是HTML的标签。

您可以先尝试通过jtidy API运行文档 – 它能够将html转换为有效的xhtml： http ： //jtidy.sourceforge.net/howto.html

 Tidy tidy = new Tidy(); tidy.setXHTML(true); tidy.parse(......)...

你可以使用TagSoup 。我用它非常成功。它与Java XML API完全兼容，包括SAX，DOM，XSLT和StAX。例如，以下是我如何使用它将XSLT转换应用于特别糟糕的HTML：

 public static void transform(InputStream style, InputStream data) throws SAXException, TransformerException { XMLReader reader = XMLReaderFactory.createXMLReader("org.ccil.cowan.tagsoup.Parser"); Source input = new SAXSource(reader, new InputSource(data)); Source xsl = new StreamSource(style); Transformer transformer = TransformerFactory.newInstance().newTransformer(xsl); transformer.transform(input, new StreamResult(System.out)); }

我需要解析非格式良好的xml数据（HTML）

使用Action数据模型值在Struts2 JSP中调用静态方法helper类

从树数据结构打印纯文本树（java）

在Java中使用AES-128进行加密

何时收集垃圾

使用RestTemplate进行基本身份validation – 编译错误 – 构造函数HttpClient（）不可见

如何使jprogressbar与我的算法并行运行

同时调用singleton对象的Java方法

为什么isAnnotationPresent在Java 7和Java 8之间的工作方式不同？

setSize（）v / s setPreferredSize（）和pack（）

如何在Java中测试写入文件？