Tag: jsoup

使用JSoup刮取Google搜索结果

我正在尝试使用JSoup来搜索Google的搜索结果。 目前这是我的代码。 public class GoogleOptimization { public static void main (String args[]) { Document doc; try{ doc = Jsoup.connect(“https://www.google.com/search?as_q=&as_epq=%22Yorkshire+Capital%22+&as_oq=fraud+OR+allegations+OR+scam&as_eq=&as_nlo=&as_nhi=&lr=lang_en&cr=countryCA&as_qdr=all&as_sitesearch=&as_occt=any&safe=images&tbs=&as_filetype=&as_rights=”).userAgent(“Mozilla”).ignoreHttpErrors(true).timeout(0).get(); Elements links = doc.select(“what should i put here?”); for (Element link : links) { System.out.println(“\n”+link.text()); } } catch (IOException e) { e.printStackTrace(); } } } 我只是试图获得搜索结果的标题和标题下方的片段。 所以,是的,我只是不知道为了刮掉这些要寻找的元素。 如果有人有更好的方法来使用java来刮掉Google,我很想知道。 谢谢。

Jsoup获取重定向的URL

我正在尝试从url shortener提供的url中获取实际(重定向)url。 我们以twitter url shortener为例。 我能够得到响应对象也解析它以获取文档。 Response response = Jsoup.connect(“http://t.co/i5dE1K4vSs”) .followRedirects(true) //to follow redirects .execute(); 现在,考虑单个重定向,从哪里获取最终的URL? 任何方法或策略来实现这一目标?

阅读JSON内容

我正在使用jsoup来抓取一些HTML数据,而且效果很好。 现在我需要提取一些JSON内容(只有JSON,而不是HTML)。 我可以使用jsoup轻松完成此操作,还是必须使用其他方法? jsoup执行的解析是对JSON数据进行编码,因此它无法使用Gson正确解析。 谢谢!

如何使用Jsoup提取单独的文本节点?

我有这样一个元素: TextA TextB 如何单独提取TextA和TextB?

如何使用jsoup发布表单登录?

我想在这里登录 源代码 :: Dhaka Electric Supply Company Limited (DESCO):: img{ border:0px; } function checkLogin() { if( document.login.username.value == ”) { alert( ‘Please enter your account number’ ); return false; }return true; } alert(‘Payments through VISA and Master Card are stopped by DBBL. only DBBL Nexus card is allowed.’); Account No. Help Before, use this facility/services […]

如何使用jsoup维护变量cookie和会话?

public boolean isGood(String path) { if (p != path) { good = false; } if (good) { try { Connection connection = Jsoup.connect(path); Map cookys = Jsoup.connect(path).response().cookies(); if (cookys != cookies) cookies = cookys; for (Entry cookie : cookies.entrySet()) { connection.cookie(cookie.getKey(), cookie.getValue()); } Doc = connection.get(); good = true; } catch (Exception e) { rstring […]

Jsoup获取动态生成的HTML

我可以连接到大多数网站并获得HTML,但是当尝试连接到使用JavaScript加载初始页面后生成大部分内容的网站时,它不会获得任何数据。 有什么方法可以用Jsoup做到这一点还是不支持它?

如何解析包含Javascript的网页?

我有一个使用Javascript创建表的网页。 现在我在我的Java项目中使用JSoup来解析网页。 顺便说一句,JSoup无法运行Javascript,因此不会生成表格,并且网页的来源不完整。 如何包含该脚本创建的HTML代码,以便使用JSoup解析其内容? 你能提供一个简单的例子吗? 谢谢! 网页示例: A blank HTML5 page var table = document.createElement(“table”); var tr = document.createElement(“tr”); table.appendChild(tr); document.body.appendChild(table); First paragraph 输出应该是: A blank HTML5 page var table = document.createElement(“table”); var tr = document.createElement(“tr”); table.appendChild(tr); document.body.appendChild(table); First paragraph 顺便说一句,JSoup不包含表标记,因为它无法执行Javascript。 我怎样才能做到这一点?

如何使用Jsoup获取表单validation码图像?

我正在为我的学校网站开发一个应用程序,我正在使用jsoup来解析html。 我遇到了validation码图像的问题我看到了这个问题而且我已经实现但是我没有得到与网站上显示的相同的图像。 如何获得相同的图像validation码,网站使用BotDetectCaptcha我有点困惑我怎么能在我的网站上专门做到这一点 学校网站

处理连接错误和JSoup

我正在尝试创建一个应用程序来从网站上的多个页面中删除内容。 我正在使用JSoup进行连接。 这是我的代码: for (String locale : langList){ sitemapPath = sitemapDomain+”/”+locale+”/”+sitemapName; try { Document doc = Jsoup.connect(sitemapPath) .userAgent(“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21”) .timeout(10000) .get(); Elements element = doc.select(“loc”); for (Element urls : element) { System.out.println(urls.text()); } } catch (IOException e) { System.out.println(e); } } 一切都在大部分时间都很完美。 但是我想要做一些事情。 首先,有时404状态将返回或500状态可能是301.使用下面的代码,它将只打印错误并移动到下一个URL。 我希望能够做的是尝试返回所有链接的url状态。 如果页面连接打印200,如果不打印相关的状态代码。 其次我有时会抓住这个错误“java.net.SocketTimeoutException:read […]