Tag: jsoup

通过Jsoup post方法登录网站无效: 我有以下代码用于以编程方式登录网站。但是，它不返回登录页面的html（带有用户数据信息），而是返回登录页面的html。我试图多次发现出了什么问题，但我似乎无法找到它。 public class LauncherClass { static String username = “—-username here——“; //blocked out here for obvious reasons static String password = “—-password here——“; static String loginUrl = “https://parents.mtsd.k12.nj.us/genesis/parents/j_security_check”; static String userDataUrl = “https://parents.mtsd.k12.nj.us/genesis/parents?module=gradebook”; public static void main(String[] args) throws IOException{ LauncherClass launcher = new LauncherClass(); launcher.Login(loginUrl, username, password); } public void Login(String url, […]

使用Java解析HTML数据（DOM解析）: 我已经研究了一段时间，并没有找到任何与Stack Overflow相关的东西。我正在使用一个旨在捕获HTML代码片段的解析器。基于代码（下面进一步说明），文件的大小呈指数级增长并且正在捕获我需要的字段（li），但也是非常重复的，因为它一遍又一遍地捕获相同的数据。这是我正在阅读的文件（完整文件实际上有超过100行但这里只包括3行）： Name: J0719 Description: Hop Counts: 2State: 3 Name: J0716 Description: Hop Counts: 3State: 2 Name: J0718 Description: Hop Counts: 1State: 5 Name: J0726 Description: Hop Counts: 8State: 4 我的完整代码在这里： package ReadXMLFile_part2; import java.io.*; import org.jsoup.Jsoup; import org.jsoup.select.Elements; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import java.util.Enumeration; import java.util.logging.Level; import java.util.logging.Logger; import javax.swing.text.MutableAttributeSet; import […]

JSOUP为html添加了额外的编码内容: 实际上JSOUP在我的jSOUP解析器中为我的HTML添加了一些额外的编码值。我正在尝试通过以下方式来处理它 String url = “http://iqtestsites.adtech.de/pictelatest/custombkgd/StylelistDevil.html”; System.out.println(“Fetching %s…”+url); Document doc = Jsoup.connect(url).get(); //System.out.println(doc.html()); Document.OutputSettings settings = doc.outputSettings(); settings.prettyPrint(false); settings.escapeMode(Entities.EscapeMode.base); settings.charset(“ASCII”); String html = doc.html(); System.out.println(html); 但是由于某种原因找不到实体类并且发出错误。我包含的lib是 import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; 最初的HTML是来自JSOUP的doc.html()给出了： </div> </div> </body> </html> iframe元素已经添加了一些编码的东西。请帮忙。谢谢Swaraj

使用jsoup解析具有任何命名空间的文本的xml节点: 我试图使用Jsoup从URL解析XML。在给定的XML中，存在具有命名空间的节点。例如：现在我希望将包含文本的所有节点都作为“类型”，但可以拥有任何名称空间。我可以使用表达式”wsdl|types”来获取此节点。但是，如何将包含文本的所有节点作为具有任何命名空间的“类型”。？我尝试使用表达式作为”*|types”但它没有奏效。请帮忙。

使用Jsoup Java登录: 如何通过jsoup登录？ Nome utente Password 我试过这个，但它不起作用： Document doc = (Document) Jsoup.connect(“http://turni.contacts.com/Default.aspx”).data(“ctl00_bodyContent_txtUser”, “user”).data(“ctl00_bodyContent_txtPassword”, “password”).data(“ctl00_bodyContent_btnLogin”,”Conferma”) //.cookies(res.cookies()).timeout(0).post();

Java JSoup错误提取URL: 我正在创建一个应用程序，它可以让我从特定网站获取值到控制台。该值来自元素，我正在使用JSoup 。我的挑战与此错误有关：获取URL时出错这是我的Java代码： public class TestSl { public static void main(String[] args) throws IOException { Document doc = Jsoup.connect(“https://stackoverflow.com/questions/11970938/java-html-parser-to-extract-specific-data”).get(); Elements spans = doc.select(“span[class=hidden-text]”); for (Element span: spans) { System.out.println(span.text()); } } } 这是控制台上的错误：线程“main”中的exceptionorg.jsoup.HttpStatusException：HTTP错误提取URL。 Status = 403，URL = Java Html解析器提取特定数据？ at org.jsoup.helper.HttpConnection $ Response.execute（HttpConnection.java:590）org.jsoup.helper.HttpConnection $ Response.execute（HttpConnection.java:540）at org.jsoup.helper.HttpConnection.execute（HttpConnection） .java：227）在testSl.main的org.jsoup.helper.HttpConnection.get（HttpConnection.java:216）（TestSl.java:19）我做错了什么，如何解决？

通过jSoup从Div标签获取属性值: 我有一个Div标签如下 5 days 07:14:41 我如何获得eventTTL的价值？我想显示eventTTL的值，即:)“4583476000”。

Jsoup – 提取文本: 我需要从这样的节点中提取文本： Some text with tags might go here. Also there are paragraphs More text can go without paragraphs 我需要建立： Some text with tags might go here. Also there are paragraphs More text can go without paragraphs Element.text只返回div的所有内容。 Element.ownText – 不在children元素中的所有内容。两者都错了。通过children迭代忽略文本节点。是否有方法迭代元素的内容以接收文本节点。例如文本节点 – 一些文本节点 – 带标签文本节点 – 可能会在这里。节点 – […]

如何使Jsoup白名单接受某些属性内容: 我正在使用Jsoup和轻松的白名单。它似乎很完美，但我想保留嵌入式图像标签，如<img alt="" src="https://stackoverflow.com/questions/22444156/how-to-make-a-jsoup-whitelist-to-accept-certain-attribute-content/data:;base64 。有没有办法修改白名单也接受那些img？编辑：如果我使用Whitelist.relaxed().addProtocols(“img”,”src”,”data”)则不会删除那些img标签。但它接受“data：”之后的任何内容，如果src内容以“data：; base64”开头，我想保留它们。用jsoup可以吗？