Tag: html parsing

使用XPath包含Java中的HTML: 我正在使用java程序中的XPath从HTML页面中抓取值来获取特定标记，偶尔使用正则表达式来清理我收到的数据。经过一些研究，我将HTML Cleaner（ http://htmlcleaner.sourceforge.net/ ）作为将原始HTML解析为良好XML格式的最可靠方法。但是，HTML Cleaner只支持XPath 1.0，我发现自己需要像’contains’这样的函数。例如，在这段XML中： Hello 我希望能够通过以下XPath获取文本“Hello”： //div/td[contains(@id, ‘foo’)]/text() 有没有办法获得这个function？我有几个想法，但如果我不需要，我宁愿不重新发明轮子：如果有办法调用HTML Cleaner的evaluateXPath并返回TagNode（我还没有找到），我可以在返回的TagNode上使用XML序列化程序并将XPath链接在一起以实现所需的function。我可以使用HTML Cleaner清理XML，将其序列化为字符串，并将其与另一个XPath库一起使用，但我找不到适用于字符串的优秀java XPath评估程序。使用像getElementsByAttValue这样的TagNode函数，我基本上可以重新创建XPath评估并使用String.contains插入包含function 简短的问题：有没有办法在现有Java库中使用HTML包含HTML？

Jsoup Java HTML解析器：执行javascript事件: 我可以在Jsoup中填写表单，执行事件和javascript函数吗？如果是，我该怎么办？或者我应该去另一个解析器。

Interesting Posts

如何将ArrayList从AsyncTask返回到另一个类？

我可以将Play配置为使用mysql枚举而不是整数吗？

在java中绘制虚线

用Java获取系统音频级别

使用Spring线程和TaskExecutor，我如何知道线程何时完成？

任务不可序列化 – Spark Java

在JTable单元格中渲染BufferedImage

Selenium：使用xpath在div中输入文本

在GWT中导入Gears API时找不到org.apache.xerces.jaxp.SAXParserFactoryImpl

在GWT中将字符串转换为BigDecimal

Genymotion初始化引擎：IntelliJ失败

扩展FutureTask，如何处理取消

SimpleDateFormat抛出ParseException，错误偏移为0

如何从S3下载GZip文件？

制作一个强大的，可resize的Swing Chess GUI