Java XML解析:避免实体引用解析

我目前正在使用DOM解析器解析XHTML文档,例如:

final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); dbf.setValidating(false); final DocumentBuilder db = dbf.newDocumentBuilder(); db.setEntityResolver(MY_ENTITY_RESOLVER); db.setErrorHandler(MY_ERROR_HANDLER); ... final Document doc = db.parse(inputSource); 

我的问题是当我的文档包含实体引用时,例如:

 

我的解析器为该内容创建一个Text节点,其中包含“€”而不是“€”。 也就是说,它正在以它应该的方式解析实体(XHTML 1.0 Strict DTD链接到ENTITIES Latin1 DTD,后者又建立了“€”与“€”的等价性)。

问题是,我不希望解析器做这样的事情。 我想保留“€” 文本未经修改

我已经尝试过了:

 final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); dbf.setExpandEntityReferences(false); 

但:

  1. 我不喜欢这个,因为我担心这可能会使一些解析器实现无法从XHTML 1.0 Strict DTD 导航到ENTITIES Latin1 DTD,因此不考虑“€” 作为声明的实体。

  2. 当我这样做时,它奇怪地创建了两个节点:一个“磅”实体节点,以及一个带有“€”符号的Text节点。

有任何想法吗? 是否有可能在DOM Parser中配置它而不需要预处理 XHTML并用所有“&”符号代替其他东西?…

解决方案可以是DOM解析器,也可以是SAX解析器,我不介意使用SAX解析,然后使用转换创建我的DOM …

此外,我无法切换到非标准的XML解析库。 没有jdom,没有jsoup,没有HtmlCleaner等。

非常感谢。

我采用的方法是用Xerces视为纯文本的唯一标记替换任何实体。 转换为Document对象后,标记将替换为Entity Reference对象。

请参阅http://sourceforge.net/p/commonclasses/code/14/tree/trunk/src/com/redhat/ecs/commonutils/XMLUtilities.java中的convertStringToDocument()函数。