Tag: scraping jsoup

数据抓取时的解析问题

认为我的解析有问题。 我在Android Studio中使用JSoup和Java。 我试图从本地html文件刮取信息并显示在我的应用程序上。 但是,当我运行应用程序时,我想要的数据不会出现。 我想显示“9:00”和“9:15”等时间。 还有“声音”,“P2016”和“P.Mann”。 html看起来像这样: timetable.html body {background-color:white;} body,td { font-family: arial; } The Year ICOMWeeks selected for output: 26 (22 Feb 2016-28 Feb 2016) 9:00 9:15 9:30 9:45 10:00 10:15 10:30 10:45 11:00 11:15 11:30 11:45 12:00 12:15 12:30 12:45 13:00 13:15 13:30 13:45 14:00 14:15 14:30 14:45 15:00 15:15 15:30 […]

Jsoup发布修改过的文档

我正在尝试为即将推出的Android应用程序创建一个web scraper。 因此,我需要在网站上使用简单的搜索表单,填写并将结果发送回服务器。 正如Jsoup-Cookbook中所提到的,我从服务器上删除了我需要的站点并更改了值。 现在我只需要将修改后的文档发回服务器并抓取生成的页面。 就我在Jsoup-API中看到的那样,除了Jsoup.connection中的.data-Attribute之外,没有办法发回一些东西,遗憾的是,它无法通过id填写文本字段。 任何想法或解决方法,如何将修改后的文档或其部分发布回网站?

如何使jsoup等待完整页面(跳过进度页面)加载?

我正在尝试解析网页并使用Jsoup提取数据。 但链接是动态的,并在显示详细信息之前抛出等待加载的页面。 所以Jsoup似乎处理等待页面而不是详细信息页面。 无论如何要等到页面满载?

连接到产品页面URL Jsoup

我有一个网站,我需要从中解析数据。 我需要通过关键字结果进行一些搜索。 但是,并非所有字段都在产品预览中可见。 似乎这些字段(产品颜色,描述,旧价格)只能从每个产品页面中删除。 产品页面的url如下所示https://www.aboutyou.de/p/new-look/basecap-in-satin-optik-3649077 SI不知道如何以通用方式调用它,所以我会不必经历每个产品。 我可以找到项目的名称和品牌,但我不知道如何构建url – 将所有字母设置为大写并在字词之间加上破折号? 我可以通过以下方式获得品牌名称和产品名称:Satin-Optik中的新LOOK Basecap。 那么我如何定义每个产品的url? 这是我到目前为止的代码: String url = “https://www.aboutyou.de/frauen/accessoires/huete-und-muetzen/caps”; Document doc = Jsoup.connect(url).get(); System.out.println(“Title: ” + doc.title()); String mainPath = “section.layout_11glwo1-o_O-stretchLayout_1jug6qr > ” + “div.content_1jug6qr > ” + “div.container > ” + “div.mainContent_10ejhcu > ” + “div.productStream_6k751k > ” + “div > ” + “div.wrapper_8yay2a > ” […]

获取javax.net.ssl.SSLException:收到致命警报:使用Jsoup抓取数据时的protocol_version

我试图使用Jsoup从站点获取数据。 链接到该网站是点击这里 ! 这是我获取数据的代码。 ` // WARNING: do it only if security isn’t important, otherwise you have // to follow this advices: http://stackoverflow.com/a/7745706/1363265 // Create a trust manager that does not validate certificate chains TrustManager[] trustAllCerts = new TrustManager[]{new X509TrustManager(){ public X509Certificate[] getAcceptedIssuers(){return null;} public void checkClientTrusted(X509Certificate[] certs, String authType){} public void checkServerTrusted(X509Certificate[] certs, String […]

如何使用Jsoup填写表单?

我正试图导航到加州网站http://kepler.sos.ca.gov/的描述页面。 但无法前往。 然后,我有一个html表单,我提交请求,我无法在这里添加表单,但它简单的POST请求http://kepler.sos.ca.gov/与所需的参数 我可以从我来到这里的上一页获得__EVENTTARGET和__EVENTARGUMENT 。 我究竟做错了什么? 码: String url = “kepler.sos.ca.gov/”; Connection.Response resp = Jsoup.connect(url) .timeout(30000) .method(Connection.Method.GET) .execute(); Document responseDocument = resp.parse(); Map loginCookies = resp.cookies(); eventValidation=responseDocument.select(“input[name=__EVENTVALIDATION]”).first(); viewState = responseDocument.select(“input[name=__VIEWSTATE]”).first();