Tag: html parsing

Jsoup div 语法有效,而div.class语法没有 – 为什么?

对于以下HTML代码段: some inner content 以下Jsoup选择器工作 : div[class=class_one class_two class_three classfour classfive classsix] 但是等效的div.class语法不起作用 : div.class_one.class_two.class_three.classfour.classfive.classsix 为什么? 我错过了什么? 编辑 :根据我在下面收到的反馈,我意识到我没有解释什么“不起作用”的意思。 这是因为我对多类选择语法的工作原理感到困惑。 通过“不工作”我的意思是上面的.classname语法选择了比class=classname语法太多的div(具有相同的类名和相同的顺序!),因为有问题的HTML包含额外的div一个7级的名字……事实certificate这是设计的 。 这就是我所缺少的,感谢@Hovercraft Full Of Eels和@BalusC帮助我发现这一点。

当apache.httpclient能够获取内容时,JSoup.connect会抛出403错误

我试图解析任何给定页面的HTML转储。 我使用HTML Parser并尝试使用JSoup进行解析。 我在Jsoup中找到了有用的函数,但在调用Document doc = Jsoup.connect(url).get();时遇到403错误Document doc = Jsoup.connect(url).get(); 我尝试了HTTPClient,以获取html转储,并且它在同一个url上成功。 为什么JSoup为同一个URL提供403,它提供来自公共http客户端的内容? 难道我做错了什么? 有什么想法吗?

使用java代码获取完整的网页

我想实现一个java方法,它将URL作为输入并存储整个网页,包括css,images,js(所有相关资源)在我的磁盘上。 我使用Jsoup html解析器来获取html页面。 现在我想要实现的唯一选择是使用jsoup获取页面,现在解析html内容并将相对路径转换为绝对路径,然后再生成javascript,图像等的get请求并将它们保存在磁盘上。 我还读到了关于html清理器,htmlunit解析器但我认为在所有这些情况下我必须解析html内容以获取图像,css和javascript文件。 我是否正确的任何建议。 或者有没有简单的方法来完成这项任务?

JSoup使用未关闭的标记解析无效的HTML

使用JSoup包含最后一个版本1.7.2,有一个错误解析带有未关闭标记的 无效 HTML。 例: String tmp = “LinkError link”; Jsoup.parse(tmp); 生成的文档是: Link Error link 浏览器会生成以下内容: Link Error link Jsoup应该作为浏览器或源代码。 有什么解决方案吗? 查看API我没有找到任何东西。

使用htmlunit -Java访问Javascript生成的html

我试图能够测试一个使用javascript来呈现大部分HTML的网站。 使用HTMLUNIT浏览器,您如何能够访问javascript生成的html? 我正在浏览他们的文档,但不确定最佳方法是什么。 WebClient webClient = new WebClient(); HtmlPage currentPage = webClient.getPage(“some url”); String Source = currentPage.asXml(); System.out.println(Source); 这是一个简单的方法来获取页面的HTML,但你会使用domNode或其他方式来访问javascript生成的HTML吗?

Java:HTML解析

我有HTML内容,如下所示。 我在这里寻找的标签是”img src”和”!important” 。 Java是否提供任何HTML解析技术? Android android se updates…

JSOUP为html添加了额外的编码内容

实际上JSOUP在我的jSOUP解析器中为我的HTML添加了一些额外的编码值。我正在尝试通过以下方式来处理它 String url = “http://iqtestsites.adtech.de/pictelatest/custombkgd/StylelistDevil.html”; System.out.println(“Fetching %s…”+url); Document doc = Jsoup.connect(url).get(); //System.out.println(doc.html()); Document.OutputSettings settings = doc.outputSettings(); settings.prettyPrint(false); settings.escapeMode(Entities.EscapeMode.base); settings.charset(“ASCII”); String html = doc.html(); System.out.println(html); 但是由于某种原因找不到实体类并且发出错误。 我包含的lib是 import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; 最初的HTML是 来自JSOUP的doc.html()给出了: </div> </div> </body> </html> iframe元素已经添加了一些编码的东西。 请帮忙。 谢谢Swaraj

通过jSoup从Div标签获取属性值

我有一个Div标签如下 5 days 07:14:41 我如何获得eventTTL的价值? 我想显示eventTTL的值,即:)“4583476000”。

如何使用Jsoup提取单独的文本节点?

我有这样一个元素: TextA TextB 如何单独提取TextA和TextB?

如何解析包含Javascript的网页?

我有一个使用Javascript创建表的网页。 现在我在我的Java项目中使用JSoup来解析网页。 顺便说一句,JSoup无法运行Javascript,因此不会生成表格,并且网页的来源不完整。 如何包含该脚本创建的HTML代码,以便使用JSoup解析其内容? 你能提供一个简单的例子吗? 谢谢! 网页示例: A blank HTML5 page var table = document.createElement(“table”); var tr = document.createElement(“tr”); table.appendChild(tr); document.body.appendChild(table); First paragraph 输出应该是: A blank HTML5 page var table = document.createElement(“table”); var tr = document.createElement(“tr”); table.appendChild(tr); document.body.appendChild(table); First paragraph 顺便说一句,JSoup不包含表标记,因为它无法执行Javascript。 我怎样才能做到这一点?