Tag: html parsing

Jsoup div 语法有效，而div.class语法没有 – 为什么？: 对于以下HTML代码段： some inner content 以下Jsoup选择器工作： div[class=class_one class_two class_three classfour classfive classsix] 但是等效的div.class语法不起作用： div.class_one.class_two.class_three.classfour.classfive.classsix 为什么？我错过了什么？编辑：根据我在下面收到的反馈，我意识到我没有解释什么“不起作用”的意思。这是因为我对多类选择语法的工作原理感到困惑。通过“不工作”我的意思是上面的.classname语法选择了比class=classname语法太多的div（具有相同的类名和相同的顺序！），因为有问题的HTML包含额外的div一个7级的名字……事实certificate这是设计的。这就是我所缺少的，感谢@Hovercraft Full Of Eels和@BalusC帮助我发现这一点。

当apache.httpclient能够获取内容时，JSoup.connect会抛出403错误: 我试图解析任何给定页面的HTML转储。我使用HTML Parser并尝试使用JSoup进行解析。我在Jsoup中找到了有用的函数，但在调用Document doc = Jsoup.connect(url).get();时遇到403错误Document doc = Jsoup.connect(url).get(); 我尝试了HTTPClient，以获取html转储，并且它在同一个url上成功。为什么JSoup为同一个URL提供403，它提供来自公共http客户端的内容？难道我做错了什么？有什么想法吗？

使用java代码获取完整的网页: 我想实现一个java方法，它将URL作为输入并存储整个网页，包括css，images，js（所有相关资源）在我的磁盘上。我使用Jsoup html解析器来获取html页面。现在我想要实现的唯一选择是使用jsoup获取页面，现在解析html内容并将相对路径转换为绝对路径，然后再生成javascript，图像等的get请求并将它们保存在磁盘上。我还读到了关于html清理器，htmlunit解析器但我认为在所有这些情况下我必须解析html内容以获取图像，css和javascript文件。我是否正确的任何建议。或者有没有简单的方法来完成这项任务？

JSoup使用未关闭的标记解析无效的HTML: 使用JSoup包含最后一个版本1.7.2，有一个错误解析带有未关闭标记的无效 HTML。例： String tmp = “LinkError link”; Jsoup.parse(tmp); 生成的文档是： Link Error link 浏览器会生成以下内容： Link Error link Jsoup应该作为浏览器或源代码。有什么解决方案吗？查看API我没有找到任何东西。

使用htmlunit -Java访问Javascript生成的html: 我试图能够测试一个使用javascript来呈现大部分HTML的网站。使用HTMLUNIT浏览器，您如何能够访问javascript生成的html？我正在浏览他们的文档，但不确定最佳方法是什么。 WebClient webClient = new WebClient(); HtmlPage currentPage = webClient.getPage(“some url”); String Source = currentPage.asXml(); System.out.println(Source); 这是一个简单的方法来获取页面的HTML，但你会使用domNode或其他方式来访问javascript生成的HTML吗？

Java：HTML解析: 我有HTML内容，如下所示。我在这里寻找的标签是”img src”和”!important” 。 Java是否提供任何HTML解析技术？ Android android se updates…

JSOUP为html添加了额外的编码内容: 实际上JSOUP在我的jSOUP解析器中为我的HTML添加了一些额外的编码值。我正在尝试通过以下方式来处理它 String url = “http://iqtestsites.adtech.de/pictelatest/custombkgd/StylelistDevil.html”; System.out.println(“Fetching %s…”+url); Document doc = Jsoup.connect(url).get(); //System.out.println(doc.html()); Document.OutputSettings settings = doc.outputSettings(); settings.prettyPrint(false); settings.escapeMode(Entities.EscapeMode.base); settings.charset(“ASCII”); String html = doc.html(); System.out.println(html); 但是由于某种原因找不到实体类并且发出错误。我包含的lib是 import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; 最初的HTML是来自JSOUP的doc.html()给出了： </div> </div> </body> </html> iframe元素已经添加了一些编码的东西。请帮忙。谢谢Swaraj

通过jSoup从Div标签获取属性值: 我有一个Div标签如下 5 days 07:14:41 我如何获得eventTTL的价值？我想显示eventTTL的值，即:)“4583476000”。

如何解析包含Javascript的网页？: 我有一个使用Javascript创建表的网页。现在我在我的Java项目中使用JSoup来解析网页。顺便说一句，JSoup无法运行Javascript，因此不会生成表格，并且网页的来源不完整。如何包含该脚本创建的HTML代码，以便使用JSoup解析其内容？你能提供一个简单的例子吗？谢谢！网页示例： A blank HTML5 page var table = document.createElement(“table”); var tr = document.createElement(“tr”); table.appendChild(tr); document.body.appendChild(table); First paragraph 输出应该是： A blank HTML5 page var table = document.createElement(“table”); var tr = document.createElement(“tr”); table.appendChild(tr); document.body.appendChild(table); First paragraph 顺便说一句，JSoup不包含表标记，因为它无法执行Javascript。我怎样才能做到这一点？