Java XML解析：避免实体引用解析

我目前正在使用DOM解析器解析XHTML文档，例如：

final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); dbf.setValidating(false); final DocumentBuilder db = dbf.newDocumentBuilder(); db.setEntityResolver(MY_ENTITY_RESOLVER); db.setErrorHandler(MY_ERROR_HANDLER); ... final Document doc = db.parse(inputSource);

我的问题是当我的文档包含实体引用时，例如：

€

我的解析器为该内容创建一个Text节点，其中包含“€”而不是“＆euro;”。也就是说，它正在以它应该的方式解析实体（XHTML 1.0 Strict DTD链接到ENTITIES Latin1 DTD，后者又建立了“＆euro;”与“€”的等价性）。

问题是，我不希望解析器做这样的事情。 我想保留“＆euro;” 文本未经修改 。

我已经尝试过了：

 final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); dbf.setExpandEntityReferences(false);

但：

我不喜欢这个，因为我担心这可能会使一些解析器实现无法从XHTML 1.0 Strict DTD 导航到ENTITIES Latin1 DTD，因此不考虑“＆euro;” 作为声明的实体。
当我这样做时，它奇怪地创建了两个节点：一个“磅”实体节点，以及一个带有“€”符号的Text节点。

有任何想法吗？ 是否有可能在DOM Parser中配置它而不需要预处理 XHTML并用所有“＆”符号代替其他东西？…

解决方案可以是DOM解析器，也可以是SAX解析器，我不介意使用SAX解析，然后使用转换创建我的DOM …

此外，我无法切换到非标准的XML解析库。没有jdom，没有jsoup，没有HtmlCleaner等。

非常感谢。

我采用的方法是用Xerces视为纯文本的唯一标记替换任何实体。转换为Document对象后，标记将替换为Entity Reference对象。

请参阅http://sourceforge.net/p/commonclasses/code/14/tree/trunk/src/com/redhat/ecs/commonutils/XMLUtilities.java中的convertStringToDocument（）函数。

Java XML解析：避免实体引用解析

MessageFactory的jaxp对象缓存

Java中使用params的高效XSLT管道

仅创建XML打印到一行

JAXB @XmlAdapter用于任意XML

如何在Java中将xml元素及其子节点转换为String？

从Java发送OWA登录表单

与使用DOM解析器手动解析XML文件相比，使用XSLT样式表是否有任何优势

Java Dom解析器报告错误的子节点数

如何在不覆盖现有数据的情况下使用DOM附加现有XML文件？在java中

为什么我的DOM解析器无法读取UTF-8

Java XML解析：避免实体引用解析

MessageFactory的jaxp对象缓存

Java中使用params的高效XSLT管道

仅创建XML打印到一行

JAXB @XmlAdapter用于任意XML

如何在Java中将xml元素及其子节点转换为String？

从Java发送OWA登录表单

与使用DOM解析器手动解析XML文件相比，使用XSLT样式表是否有任何优势

Java Dom解析器报告错误的子节点数

如何在不覆盖现有数据的情况下使用DOM附加现有XML文件？ 在java中

为什么我的DOM解析器无法读取UTF-8

如何在不覆盖现有数据的情况下使用DOM附加现有XML文件？在java中