Tag: htmlcleaner

使用jsoup来转义不允许的标签

我正在评估jsoup的function,它将清理(但不删除!)非白名单标签。 假设只允许标签,所以输入如下 foo bar baz 必须产生以下结果: foo bar <script onLoad=’stealYourCookies();’>baz</script> 我用jsoup看到以下问题/问题: document.getAllElements()始终采用 , 和 。 是的,我可以调用document.body().getAllElements()但重点是我不知道我的源文件是完整的HTML文档还是只是正文 – 我希望结果的形状和forms与它进来了; 如何将…替换为<script>…</script> ? 我只想用转义实体替换括号,并且不想改变任何属性等Node.replaceWith听起来像是一种矫枉过正。 是否可以完全关闭漂亮的打印(例如插入新线等)? 或许我应该使用另一个框架? 到目前为止,我已经查看了htmlcleaner ,但是给出的示例并未建议我支持所需的function。

xPath表达式:获取元素,即使它们不存在

我有这个xPath表达式,我将其放入htmlCleaner: //table[@class=’StandardTable’]/tbody/tr[position()>1]/td[2]/a/img 现在,我的问题是它发生了变化,有时候/ a / img元素不存在。 所以我想要一个能够获得所有元素的表达式 //table[@class=’StandardTable’]/tbody/tr[position()>1]/td[2]/a/img 当/ a / img存在时,和 //table[@class=’StandardTable’]/tbody/tr[position()>1]/td[2] 当/ a / img不存在时 有谁有任何想法如何做到这一点? 我在另一个问题中找到了一些看起来可能对我有帮助的东西 descendant-or-self::*[self::body or self::span/parent::body] 但我不明白。 提前致谢。