Tag: jsoup

如何使用Jsoup遍历HTML树?

我觉得这个问题已被提出,但我没有找到任何答案。 从Jsoup中的Document元素,我如何遍历HTML内容中的所有元素? 我正在阅读文档,我正在考虑使用childNodes()方法,但它只接受下面一个leval的节点(我理解)。 我想我可以使用这种方法进行一些递归,但我想知道是否有更合适/本地的方法来做到这一点。

如何将Jsoup文档保存到HTML文件?

我使用此方法将网页检索到org.jsoup.nodes.Document对象: myDoc = Jsoup.connect(myURL).ignoreContentType(true).get(); 我该如何将这个对象写入HTML文件? myDoc.html() , myDoc.text()和myDoc.toString()不输出文档的所有元素。 javascript元素中的某些信息在解析时可能会丢失。 例如,Instagram媒体页面源中的“时间戳”。

Java(Jsoup):如何解析http:// host:port

我正在尝试使用Jsoup库解析网页。 但由于它的地址就像主机和端口一样( http://host:port )(Stackoverflow不允许编写确切的东西)Jsoup抛出exception并且不解析页面。 这是页面地址: 这是exception日志: org.jsoup.HttpStatusException: HTTP error fetching URL. Status=-1, URL=http://sunucu2.radyolarburada.com:5000/ at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:435) at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410) at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153) at Tester.getSong(Tester.java:136) at Tester.main(Tester.java:150)

Jsoup如何让jQuery像选择器一样?

我过去使用过jsoup,我似乎无法理解如何定义类似于选择器的jquery。 我已经阅读了源代码,但我仍然无法理解。 public static final class ContainsOwnText extends Evaluator { private String searchText; public ContainsOwnText(String searchText) { this.searchText = searchText.toLowerCase(); } @Override public boolean matches(Element root, Element element) { return (element.ownText().toLowerCase().contains(searchText)); } @Override public String toString() { return String.format(“:containsOwn(%s”, searchText); } } 以上可以这样称呼 select(“*:containsOwn(“+ str + “)”); 这是选择 问题: 有人可以向我解释ContainsOwn是​​如何工作的吗? return String.format(“:containsOwn(%s”, searchText); 为什么以上不是这样的? return […]

Jsoup将内容保存到数据库中

我有一个url数组,我想存储我在数据库中读取的url中的信息。 我的问题是我的数据列表太大url如果读取序列化每个url从上面露水存储在数据库中需要时间。 我知道有一种方法可以使用线程进行操作,但我不知道该怎么做,请帮助我。 或者不管你的方法 try { String lstUrls = “http://www.java2s.com/Tutorials/Java/Scala/index.htm\n” + “http://www.java2s.com/Tutorials/Java/Scala/0020__Scala_Variables.htm\n” + “http://www.java2s.com/Tutorials/Java/Scala/0040__Scala_Variable_Declarations.htm\n” + “http://www.java2s.com/Tutorials/Java/Scala/0060__Scala_Semicolons.htm\n” + “http://www.java2s.com/Tutorials/Java/Scala/0080__Scala_Code_Blocks.htm\n” + “http://www.java2s.com/Tutorials/Java/Scala/0090__Scala_Comments.htm\n” + “http://www.java2s.com/Tutorials/Java/Scala/0100__Scala_Type_Hierarchy.htm\n”; String[] urls = lstUrls.split(“\n”); for (String url : urls) { Document doc = Jsoup.connect(url).userAgent(“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36”).get(); Elements select = doc.select(“div.row”); String html = […]

使用JSoup将此URL的内容:http://www.aw20.co.uk/images/logo.png保存到文件中

我尝试使用JSoup来获取此URL的内容http://sofzh.miximages.com/java/logo.png ,这是image logo.png,并将其保存到文件中。 到目前为止,我已经使用JSoup连接到http://www.aw20.co.uk并获取文档。 然后我找到了我正在寻找的图像的绝对url,但现在我不知道如何获得实际图像。 所以我希望有人能指出我正确的方向吗? 无论如何我也可以使用Jsoup.connect(“http://sofzh.miximages.com/java/logo.png”)。get(); 得到图像? import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class JGet2 { public static void main(String[] args) { try { Document doc = Jsoup.connect(“http://www.aw20.co.uk”).get(); Elements img = doc.getElementsByTag(“img”); for (Element element : img) { String src = element.absUrl(“src”); System.out.println(“Image Found!”); System.out.println(“src attribute is: ” + […]

提取HTML标记之外的文本

我有以下HTML代码: Text #1 “Another Text 1” Text #2 “Another Text 2” 我想提取标签外的文本,“另一个文本1”和“另一个文本2” 我正在使用JSoup来实现这一目标。 有任何想法吗??? 谢谢!

暂停所有线程:使用Threads – ms警告ms

我有2个Thread进行一些网络计算。 当我运行我的应用程序并在启动我的第二个Thread我得到一个: Suspending all threads took: ms警告后跟: Background sticky concurrent mark sweep GC freed 246745(21MB) AllocSpace objects, 169(6MB) LOS objects, 33% free, 31MB/47MB, paused 1.972ms total 127.267ms警告。 有时我会得到那两个警告,有时我会收到很多这两个警告,直到我决定终止应用程序运行。 在这一点上,它只是运行主Thread ,基本上什么都不做。 这是相关的代码: MainActivity.java : protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); // Getting html page through a thread this.getHtmlPageThread = new GetHtmlPageThread(URL_STRING); this.getHtmlPageThread.start(); // The thread […]

将Cookie传递给GET请求的问题(POST后)

我现在被困在这个问题好几天了,我的眼睛开始受伤于尝试不同组合的时间,但没有成功。 问题是,我正在制作一个应用程序,它必须从互联网上获取数据,解析它然后显示给用户。 我已经尝试了几种方法,并且使用JSOUP非常有帮助,特别是在解析和从结果中获取数据时。 但是,有一个问题我无法解决。 我已尝试使用常规HTTPClient和JSOUP,但我无法成功获取所需的数据。 这是我的代码(JSOUP版本): public void bht_ht(Context c, int pozivni, int broj) throws IOException { //this is the first connection, to get the cookies (I have tried the version without this method separate, but it’s the same Connection.Response resCookie = Jsoup.connect(“http://www.bhtelecom.ba/imenik_telefon.html”) .method(Method.GET) .execute(); String sessionId = resCookie.cookie(“PHPSESSID”); String fetypo = resCookie.cookie(“fe_typo_user”); //these two […]

使用用户名和密码登录LinkedIn失败

LinkedIn使用oauth登录到它的api.There无法登录到服务器中的api。我试图使用http请求登录到linkedin并获取oauth_verifier ,但我得到了这样的响应 很抱歉,您的申请存在问题。 请确保您已启用Cookie,然后重试。 或者点击此链接返回主页。 我已多次分析浏览器和服务器之间的通信,但仍无法找到原因 public boolean Login(String user, String pass, String url) { try { DefaultHttpClient httpclient; HttpParams params = new BasicHttpParams(); ConnManagerParams.setMaxTotalConnections(params, 100); HttpProtocolParams.setVersion(params, HttpVersion.HTTP_1_1); // Create and initialize scheme registry SchemeRegistry schemeRegistry = new SchemeRegistry(); schemeRegistry.register(new Scheme(“http”, PlainSocketFactory.getSocketFactory(), 80)); schemeRegistry.register(new Scheme(“https”, SSLSocketFactory.getSocketFactory(), 443)); // Create an HttpClient with the ThreadSafeClientConnManager. // […]