保留数字字符实体字符,例如`
 
`在Java中解析XML时

我正在解析包含数字字符实体字符的XML,例如(但不限于) < > < > (Java中的换行回车)。 在解析时,我将节点的文本内容附加到StringBuffer,以便稍后将其写入文本文件。

但是,当我将String写入文件或将其打印出来时,这些unicode字符将被解析或转换为换行符/空格。

在Java中迭代XML文件的节点并将文本内容节点存储到String时,如何保留原始数字字符实体字符符号?

demo xml文件的示例:

     

示例Java代码。 它加载XML,遍历节点并将每个节点的文本内容收集到StringBuffer。 迭代结束后,它将StringBuffer写入控制台,也写入文件(但没有 )符号。

将这些符号存储到字符串时,保留这些符号的方法是什么? 你可以帮我吗? 谢谢。

 public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException, TransformerException { DocumentBuilderFactory documentFactory = DocumentBuilderFactory.newInstance(); Document document = null; DocumentBuilder documentBuilder = documentFactory.newDocumentBuilder(); document = documentBuilder.parse(new File("path/to/demo.xml")); StringBuilder sb = new StringBuilder(); NodeList nodeList = document.getElementsByTagName("*"); for (int i = 0; i < nodeList.getLength(); i++) { Node node = nodeList.item(i); if (node.getNodeType() == Node.ELEMENT_NODE) { NamedNodeMap nnp = node.getAttributes(); for (int j = 0; j < nnp.getLength(); j++) { sb.append(nnp.item(j).getTextContent()); } } } System.out.println(sb.toString()); try (Writer writer = new BufferedWriter(new OutputStreamWriter( new FileOutputStream("path/to/demo_output.xml"), "UTF-8"))) { writer.write(sb.toString()); } } 

在将文件解析为Document之前,您需要转义所有XML实体。 你可以通过使用相应的XML实体&来逃避&符号本身& 。 就像是,

 DocumentBuilder documentBuilder = DocumentBuilderFactory.newInstance().newDocumentBuilder(); String xmlContents = new String(Files.readAllBytes(Paths.get("demo.xml")), "UTF-8"); Document document = documentBuilder.parse( new InputSource(new StringReader(xmlContents.replaceAll("&", "&")) )); 

输出:

 2A string followed by special symbols 
 
 

PS这是Ravi Thapliyal答案的补充,而不是替代品。

处理从2003格式Excel表格导出的XML文件时遇到同样的问题。 此XML文件将文本内容中的换行符存储为 以及其他数字字符引用。 但是,在用Java DOM解析器读取它之后,操纵一些元素的内容并将其转换回XML文件,我看到在Windows中使用J2SE1扩展了所有数字字符引用(即换行符转换为CRLF ) 0.6。 由于我的目标是在操纵某些元素时尽可能保持内容格式不变(即保留数字字符引用),Ravi Thapliyal的建议似乎是唯一可行的解​​决方案。

将XML内容写回文件时,有必要更换所有&& ,对吗? 为此,我必须将StringWriter作为StreamResult提供给转换器并从中获取String,替换all并将字符串转储到xml文件。

 TransformerFactory tf = TransformerFactory.newInstance(); Transformer t = tf.newTransformer(); DOMSource source = new DOMSource(document); //write into a stringWriter for further processing. StringWriter stringWriter = new StringWriter(); StreamResult result = new StreamResult(stringWriter); t.transform(source, result); //stringWriter stream contains xml content. String xmlContent = stringWriter.getBuffer().toString(); //revert "&" back to "&" to retain numeric character references. xmlContent = xmlContent.replaceAll("&", "&"); BufferedWriter wr = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(outputFile), "UTF-8")); wr.write(xmlContent); wr.close();