使用jsoup解析XML – 防止jsoup“清理”标记

在大多数情况下，使用jsoup解析XML没有问题。但是，如果XML文档中有标记，jsoup会some text here将some text here更改为some text here 。这使得无法使用CSS选择器在标记内提取文本。

那么如何防止jsoup“清理” 标签？

在jsoup 1.6.2中，我添加了一个XML解析器模式，它按原样解析输入，而不应用HTML5解析规则（元素，文档结构等的内容）。此模式将文本保留在标记中，并允许其多个等。

这是一个例子：

 String xml = "OneTwo"; Document xmlDoc = Jsoup.parse(xml, "", Parser.xmlParser()); Elements links = xmlDoc.select("link"); System.out.println("Link text 1: " + links.get(0).text()); System.out.println("Link text 2: " + links.get(1).text());

返回：

 Link text 1: One Link text 2: Two

不要在元素中存储任何文本 – 它是无效的。如果您需要额外信息，请将其保留在HTML5 data-*属性中。我确定jsoup不会碰它。

可以有一个解决方法。在将XML传递给jsoup之前。转换XML文件以替换所有带有虚拟标记的文件并执行您想要执行的操作。

Interesting Posts

java：竞争条件 – 有没有办法确保几行代码一起执行？

如何正确关闭资源

如何在yml中获取我的配置值 – 使用dropwizard（microservice）Jersey DI @Injection？

Java中的TimeZone ID

如何在Spring中只实现CrudRepository的具体方法？

为什么非静态变量不能从静态上下文引用 – reg

Arduino无法发回串行数据

具有主键的Hibernate类也是外键

如何检测客户端机器是否已经安装了JRE版本？

Weka：如何在java中获取测试实例的预测值？