使用jsoup来转义不允许的标签

我正在评估jsoup的function，它将清理（但不删除！）非白名单标签。假设只允许标签，所以输入如下

foo bar baz

必须产生以下结果：

foo bar <script onLoad='stealYourCookies();'>baz</script>

我用jsoup看到以下问题/问题：

document.getAllElements()始终采用，和。是的，我可以调用document.body().getAllElements()但重点是我不知道我的源文件是完整的HTML文档还是只是正文 – 我希望结果的形状和forms与它进来了;

如何将...替换为<script>...</script> ？我只想用转义实体替换括号，并且不想改变任何属性等Node.replaceWith听起来像是一种矫枉过正。

是否可以完全关闭漂亮的打印（例如插入新线等）？

或许我应该使用另一个框架？到目前为止，我已经查看了htmlcleaner ，但是给出的示例并未建议我支持所需的function。

答案1

如何使用Jsoup加载/解析Document ？如果你使用parse()或connect().get() jsoup将自动格式化你的html（插入html ， body和head标签）。这样可以确保您始终拥有完整的Html文档 – 即使输入不完整。

假设您只想清理输入（无需处理），您应该使用clean()而不是之前列出的方法。

示例1 – 使用parse（）

final String html = "a"; System.out.println(Jsoup.parse(html));

输出：

a

输入html已完成，以确保您拥有完整的文档。

示例2 – 使用clean（）

final String html = "a"; System.out.println(Jsoup.clean("a", Whitelist.relaxed()));

输出：

a

输入html被清理，而不是更多。

文档：

Jsoup

答案2

方法replaceWith()完全符合您的需要：

例：

final String html = ""; Document doc = Jsoup.parse(html); for( Element element : doc.select("script") ) { element.replaceWith(TextNode.createFromEncoded(element.toString(), null)); } System.out.println(doc);

输出：

<script>your script here</script>

或仅限身体 ：

System.out.println(doc.body().html());

输出：

<script>your script here</script>

文档：

Node.replaceWith（Node in）

TextNode

答案3

是的， Jsoup.OutputSettings prettyPrint()方法Jsoup.OutputSettings做到这一点。

例：

final String html = "your html here "; Document doc = Jsoup.parse(html); doc.outputSettings().prettyPrint(false); System.out.println(doc);

注意：如果outputSettings()方法不可用，请更新Jsoup。

输出：

your html here

文档：

Document.OutputSettings.prettyPrint（boolean pretty）

答案4 （没有子弹）

没有！ Jsoup是最好的 ，最有能力的 Html库之一！

如何获取电子邮件所有附件的文件名？

XJC – 编译器无法遵守此类自定义

Selenium 2：以编程方式查找Web元素定位符
html文件中的Thymeleaf命名空间在Netbeans中显示错误 – 如何通过HTML检查？
Blogger主题的下一个和上一个按钮
如何在HTML文件中搜索某些标签？
更好的Html Builder in java
Java EE应用程序中的样式路径
用于计算分数的Java程序
301永久移动
如何处理url中的特殊字符作为参数值？

使用jsoup来转义不允许的标签

答案1

答案2

答案3

答案4 （没有子弹）

跨源请求阻止Spring REST服务+ AJAX

使用Jasper Report导出包含嵌入图像的单个HTML

在页面重新加载时重置Java Applet

小程序 – 无法写入文件

Jsoup – CSS查询选择器问题（？）

为什么JSOUP不读为UTF-8？

如何在使用OWASP Java HTML Sanitizer清理html时允许嵌入的图像

Java Applet：调用JavaScript – JSObject.getWindow（this）返回null

Android：如何处理嵌入在使用JSON检索的字符串中的html 标记

阅读Java中的网页的完整内容