Tag: jsoup

通过Jsoup post方法登录网站无效

我有以下代码用于以编程方式登录网站。 但是,它不返回登录页面的html(带有用户数据信息),而是返回登录页面的html。 我试图多次发现出了什么问题,但我似乎无法找到它。 public class LauncherClass { static String username = “—-username here——“; //blocked out here for obvious reasons static String password = “—-password here——“; static String loginUrl = “https://parents.mtsd.k12.nj.us/genesis/parents/j_security_check”; static String userDataUrl = “https://parents.mtsd.k12.nj.us/genesis/parents?module=gradebook”; public static void main(String[] args) throws IOException{ LauncherClass launcher = new LauncherClass(); launcher.Login(loginUrl, username, password); } public void Login(String url, […]

使用Java解析HTML数据(DOM解析)

我已经研究了一段时间,并没有找到任何与Stack Overflow相关的东西。 我正在使用一个旨在捕获HTML代码片段的解析器。 基于代码(下面进一步说明),文件的大小呈指数级增长并且正在捕获我需要的字段(li),但也是非常重复的,因为它一遍又一遍地捕获相同的数据。 这是我正在阅读的文件(完整文件实际上有超过100行但这里只包括3行): Name: J0719 Description: Hop Counts: 2State: 3 Name: J0716 Description: Hop Counts: 3State: 2 Name: J0718 Description: Hop Counts: 1State: 5 Name: J0726 Description: Hop Counts: 8State: 4 我的完整代码在这里: package ReadXMLFile_part2; import java.io.*; import org.jsoup.Jsoup; import org.jsoup.select.Elements; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import java.util.Enumeration; import java.util.logging.Level; import java.util.logging.Logger; import javax.swing.text.MutableAttributeSet; import […]

JSOUP为html添加了额外的编码内容

实际上JSOUP在我的jSOUP解析器中为我的HTML添加了一些额外的编码值。我正在尝试通过以下方式来处理它 String url = “http://iqtestsites.adtech.de/pictelatest/custombkgd/StylelistDevil.html”; System.out.println(“Fetching %s…”+url); Document doc = Jsoup.connect(url).get(); //System.out.println(doc.html()); Document.OutputSettings settings = doc.outputSettings(); settings.prettyPrint(false); settings.escapeMode(Entities.EscapeMode.base); settings.charset(“ASCII”); String html = doc.html(); System.out.println(html); 但是由于某种原因找不到实体类并且发出错误。 我包含的lib是 import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; 最初的HTML是 来自JSOUP的doc.html()给出了: </div> </div> </body> </html> iframe元素已经添加了一些编码的东西。 请帮忙。 谢谢Swaraj

使用jsoup解析具有任何命名空间的文本的xml节点

我试图使用Jsoup从URL解析XML。 在给定的XML中,存在具有命名空间的节点。 例如: 现在我希望将包含文本的所有节点都作为“类型”,但可以拥有任何名称空间。 我可以使用表达式”wsdl|types”来获取此节点。 但是,如何将包含文本的所有节点作为具有任何命名空间的“类型”。 ? 我尝试使用表达式作为”*|types”但它没有奏效。 请帮忙。

使用Jsoup Java登录

如何通过jsoup登录? Nome utente Password 我试过这个,但它不起作用: Document doc = (Document) Jsoup.connect(“http://turni.contacts.com/Default.aspx”).data(“ctl00_bodyContent_txtUser”, “user”).data(“ctl00_bodyContent_txtPassword”, “password”).data(“ctl00_bodyContent_btnLogin”,”Conferma”) //.cookies(res.cookies()).timeout(0).post();

Java JSoup错误提取URL

我正在创建一个应用程序,它可以让我从特定网站获取值到控制台。 该值来自元素,我正在使用JSoup 。 我的挑战与此错误有关: 获取URL时出错 这是我的Java代码: public class TestSl { public static void main(String[] args) throws IOException { Document doc = Jsoup.connect(“https://stackoverflow.com/questions/11970938/java-html-parser-to-extract-specific-data”).get(); Elements spans = doc.select(“span[class=hidden-text]”); for (Element span: spans) { System.out.println(span.text()); } } } 这是控制台上的错误: 线程“main”中的exceptionorg.jsoup.HttpStatusException:HTTP错误提取URL。 Status = 403,URL = Java Html解析器提取特定数据? at org.jsoup.helper.HttpConnection $ Response.execute(HttpConnection.java:590)org.jsoup.helper.HttpConnection $ Response.execute(HttpConnection.java:540)at org.jsoup.helper.HttpConnection.execute(HttpConnection) .java:227)在testSl.main的org.jsoup.helper.HttpConnection.get(HttpConnection.java:216)(TestSl.java:19) 我做错了什么,如何解决?

通过jSoup从Div标签获取属性值

我有一个Div标签如下 5 days 07:14:41 我如何获得eventTTL的价值? 我想显示eventTTL的值,即:)“4583476000”。

Jsoup – 提取文本

我需要从这样的节点中提取文本: Some text with tags might go here. Also there are paragraphs More text can go without paragraphs 我需要建立: Some text with tags might go here. Also there are paragraphs More text can go without paragraphs Element.text只返回div的所有内容。 Element.ownText – 不在children元素中的所有内容。 两者都错了。 通过children迭代忽略文本节点。 是否有方法迭代元素的内容以接收文本节点。 例如 文本节点 – 一些文本 节点 – 带标签 文本节点 – 可能会在这里。 节点 – […]

如何使Jsoup白名单接受某些属性内容

我正在使用Jsoup和轻松的白名单。 它似乎很完美,但我想保留嵌入式图像标签,如<img alt="" src="https://stackoverflow.com/questions/22444156/how-to-make-a-jsoup-whitelist-to-accept-certain-attribute-content/data:;base64 。 有没有办法修改白名单也接受那些img? 编辑 : 如果我使用Whitelist.relaxed().addProtocols(“img”,”src”,”data”)则不会删除那些img标签。 但它接受“data:”之后的任何内容,如果src内容以“data:; base64”开头,我想保留它们。 用jsoup可以吗?

如何使用Jsoup管理cookie?

Jsoup中是否有一个简单的cookie管理器来存储主机的cookie? 这个post中的例子非常缺乏。