在Java中剥离无效的XML字符

我有一个XML文件，它是数据库的输出。我正在使用Java SAX解析器来解析XML并以不同的格式输出它。 XML包含一些无效字符，解析器会抛出“无效的Unicode字符（0x5）”之类的错误

除了预先处理文件并替换它们之外，有没有一种方法可以去除所有这些字符？到目前为止，我遇到了3个不同的无效字符（0x5,0x6和0x7）。这是一个~4gb的数据库转储，我们将要处理它多次，所以每次我们得到一个新的转储来运行一个预处理器时，不得不再等30分钟，这将是一个痛苦，这不是我第一次遇到这个问题。

我没有亲自使用过这个，但是Atlassian制作了一个可以满足您需求的命令行XML清理程序（它主要是为了JIRA，但XML是XML）：

下载atlassian-xml-cleaner-0.1.jar

打开DOS控制台或shell，找到计算机上的XML或ZIP备份文件，此处假设称为data.xml

运行：java -jar atlassian-xml-cleaner-0.1.jar data.xml> data-clean.xml

这会将data.xml的副本写入data-clean.xml，并删除无效字符。

我使用了Xalan org.apache.xml.utils.XMLChar类：

 public static String stripInvalidXmlCharacters(String input) { StringBuilder sb = new StringBuilder(); for (int i = 0; i < input.length(); i++) { char c = input.charAt(i); if (XMLChar.isValid(c)) { sb.append(c); } } return sb.toString(); }

我使用下面的正则表达式似乎与JDK6的预期一样：

 Pattern INVALID_XML_CHARS = Pattern.compile("[^\\u0009\\u000A\\u000D\\u0020-\\uD7FF\\uE000-\\uFFFD\uD800\uDC00-\uDBFF\uDFFF]"); ... INVALID_XML_CHARS.matcher(stringToCleanup).replaceAll("");

在JDK7中，有可能使用符号\x{10000}-\x{10FFFF}作为BMP之外的最后一个范围而不是\uD800\uDC00-\uDBFF\uDFFF表示法，这对于了解。

在将澳大利亚出口关税的内容解析为XML文档时，我遇到了类似的问题。我不能使用此处建议的解决方案，例如： – 使用从命令行调用的外部工具（jar）。 – 请澳大利亚海关清理源文件。

目前解决此问题的唯一方法是逐个字符地遍历源文件的整个内容，并测试每个字符是否不属于ascii范围0x00到0x1F。它可以完成，但我想知道是否有更好的方法使用类型String的Java方法。

编辑我发现了一个可能对其他人有用的解决方案：使用Java方法String＃ReplaceAll来替换或删除XML文档中的任何不需要的字符。

示例代码（我删除了一些必要的语句以避免混乱）：

 BufferedReader reader = null; ... String line = reader.readLine().replaceAll("[\\x00-\\x1F]", "");

在这个例子中，我删除（即用空字符串替换），包括在0x00到0x1F范围内的不可打印字符。您可以更改方法#replaceAll（）中的第二个参数，以使用应用程序所需的字符串替换字符。

您的无效字符是否可能仅存在于值中而不是标记本身，即XML在概念上符合模式，但值尚未正确清理？如果是这样，那么重写InputStream来创建一个CleansingInputStream，用它们的XML等价替换你的无效字符呢？

您的问题与XML无关：它涉及字符编码。它归结为每个字符串，无论是XML还是其他字符串，都由字节组成，你不知道这些字节代表什么字符，除非你被告知字符串具有什么字符编码。例如，如果供应商告诉你它是UTF-8并且它实际上是别的东西，那么你一定会遇到问题。在最好的情况下，一切正常，但有些字节被翻译成“错误”的字符。在最坏的情况下，您会遇到类似于您遇到的错误。

实际上，您的问题更严重：您的字符串包含不代表任何字符编码字符的字节序列。没有文本处理工具，更不用说XML解析器了，它可以帮助你。这需要字节级清理。

在Java中剥离无效的XML字符

我的代码中的内存不足exception

在Java中匹配字符串中的单词

为什么Scala可以序列化Function而不是PartialFunction？

用于Spring Security和/或Spring BlazeDS集成的会话管理（和查杀）的集中系统

如何使用默认构造函数伪造InitialContext

IntelliJ IDEA：Tomcat 8.5.13和9.0.0.M19 – 工件部署期间出错。有关详细信息，请参阅服

在Java中扭曲

Java 9模块，静态意味着浅层reflection？

java中的video隐写术

如何关闭额外的日志记录？

在Java中剥离无效的XML字符

我的代码中的内存不足exception

在Java中匹配字符串中的单词

为什么Scala可以序列化Function而不是PartialFunction？

用于Spring Security和/或Spring BlazeDS集成的会话管理（和查杀）的集中系统

如何使用默认构造函数伪造InitialContext

IntelliJ IDEA：Tomcat 8.5.13和9.0.0.M19 – 工件部署期间出错。 有关详细信息，请参阅服

在Java中扭曲

Java 9模块，静态意味着浅层reflection？

java中的video隐写术

如何关闭额外的日志记录？

IntelliJ IDEA：Tomcat 8.5.13和9.0.0.M19 – 工件部署期间出错。有关详细信息，请参阅服