Tag: jsoup

如何解析具有多个表的页面

关于如何刮取多个表的网页的任何想法? 我正在连接到网页 这是一个表,但在同一个网页上有多个表 我也无法弄清楚如何阅读表… XML: Top 300 Overall Fantasy Rankings RANK CENTRES TEAM POS GP G A PTS +/- PIM PPP 1. Steven Stamkos Tampa Bay C 81 50 51 101 -2 56 38 Iterator trSIter = doc.select(“table”) .iterator(); while (trSIter.hasNext()) { Element trEl = trSIter.next().child(0); Elements tdEls = trEl.children(); Iterator tdIter = tdEls.select(“tr”).iterator(); System.out.println(“><"+tdsEls); Iterator […]

Jsoup connect():绕过谷歌validation码

我做了一个小应用程序,我必须根据关键字检索URL。 这是代码: Elements doc = Jsoup .connect(request) .userAgent( “Mozilla 5.0 (Windows NT 6.1)”) .timeout(5000).get().select(“li.g>h3>a”); for (Element link : doc) { String url = link.absUrl(“href”); try { url = URLDecoder.decode(url.substring(url.indexOf(‘=’) + 1, url.indexOf(‘&’)), “UTF-8”); } catch (UnsupportedEncodingException e) { // TODO Auto-generated catch block e.printStackTrace(); } if(!url.startsWith(“http”)) continue; // Ads/news/etc. else if(url.contains(“/pdf/”)) continue; else if(url.contains(“//github.com/”)) continue; […]

Jsoup – CSS查询选择器问题(?)

我有一个奇怪的问题,我一直在使用Jsoup 1.7.2 ,没有问题,只有现在,当我尝试从这个网站检索主要标题: www.jornaldamarinha.pt ,使用此代码: // Connecting… Document doc = Jsoup.connect(“http://www.jornaldamarinha.pt”) .timeout(0) .get(); // “*[class*=zincontent-wrap]” in “Jsoup idiom”, means: // Select all tags that contains classes with “zincontent-wrap” on its name. Elements elems = doc.select(“*[class*=zincontent-wrap]”); // Retrieves 0 results! int t = elems.size(); Log.w(“INFO”, “Total Headlines: ” + t); // Loop trought all retrieved headlines: […]

使用Jsoup解析Html时出错

我想解析html网站并获取字符串值。 但是在解析div类时我收到错误。 我写了上面的代码,但我收到了错误。 try { doc = Jsoup.connect(“http://tvrehberi.hurriyet.com.tr/program-detay/308271/deli-deli-olma”).get(); List saatItem = new ArrayList(); for (Element iterable : doc.getElementsByClass(“content&clear”)) { saatItem.add(iterable.text()); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } 此错误导致类具有空白字符。 如果类值没有空白字符,则代码运行完美。 我怎么解决这个问题 ? 错误日志: 02-06 00:18:53.770: E/AndroidRuntime(28775): FATAL EXCEPTION: main 02-06 00:18:53.770: E/AndroidRuntime(28775): java.lang.RuntimeException: Unable to start activity ComponentInfo{com.example.htmlparsingtutorial/com.example.htmlparsingtutorial.MainActivity}: android.os.NetworkOnMainThreadException 02-06 00:18:53.770: […]

从Div标签获取文本

我有一个带有多个div标签的主Div标签,如下所示。 子Div标签没有与其他子div标签区分的class / id。 现在我想从第二个子Div标签中提取文本值。 我怎样才能做到这一点? This is a monster Monster in Black 我想得到“黑衣怪物”的文字。 这个Div没有id / name,也不确定这个样式是相同还是变化。 我将如何使用jSoup提取?

将线程实现到Java Web Crawler中

这是我写的原始网络爬虫:(仅供参考) https://github.com/domshahbazi/java-webcrawler/tree/master 这是一个简单的网络爬虫,它访问给定的初始网页,从页面中删除所有链接并将它们添加到队列(LinkedList),然后逐个弹出它们,每次访问,循环再次开始。 为了加速我的程序和学习,我尝试使用线程实现,这样我就可以同时运行多个线程,在更短的时间内索引更多的页面。 以下是每个class级: 主要课程 public class controller { public static void main(String args[]) throws InterruptedException { DataStruc data = new DataStruc(“http://www.imdb.com/title/tt1045772/?ref_=nm_flmg_act_12”); Thread crawl1 = new Crawler(data); Thread crawl2 = new Crawler(data); crawl1.start(); crawl2.start(); } } 爬虫类 (线程) public class Crawler extends Thread { /** Instance of Data Structure **/ DataStruc data; /** Number […]

使用带有ID的元素的Jsoup“屏幕刮”

全部 – 我无法弄清楚如何获取具有ID的元素的值。 到目前为止我有这个 @Override protected Void doInBackground(Void… unused) { org.jsoup.nodes.Document doc = null; try { doc = Jsoup.connect(“http://www3.rtd-denver.com/schedules/getSchedule.action?runboardId=123&routeId=0&routeType=1&serviceType=3”).get(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } docTitle = doc.select(“table[id=\”td1-7\”] [class=\”datacell\”]”).first().text(); //NOT SURE HERE return null; 我想要的是得到 的值,当我使用它时,我得到一个力,所以我知道它是不对的。 我怎样才能得到这个价值?

使用Jsoup获取图像URL

我正在使用jSoup从网站的html中提取信息。 但我在以下情况下获取数据时遇到问题。我正在使用的HTML包含下面的一部分,我想得到所有那些图像url 我使用的有点如下: doc = Jsoup.connect(“http://www.myUrl”).get(); castsImageUrl = doc.select(“ul.cast > li > a > img”); for (Element el : castsImageUrl)System.out.println(el.text()); 但我一无所获。 我无法弄清楚我的问题。 任何人都可以帮我解决它

使用jsoup来转义不允许的标签

我正在评估jsoup的function,它将清理(但不删除!)非白名单标签。 假设只允许标签,所以输入如下 foo bar baz 必须产生以下结果: foo bar <script onLoad=’stealYourCookies();’>baz</script> 我用jsoup看到以下问题/问题: document.getAllElements()始终采用 , 和 。 是的,我可以调用document.body().getAllElements()但重点是我不知道我的源文件是完整的HTML文档还是只是正文 – 我希望结果的形状和forms与它进来了; 如何将…替换为<script>…</script> ? 我只想用转义实体替换括号,并且不想改变任何属性等Node.replaceWith听起来像是一种矫枉过正。 是否可以完全关闭漂亮的打印(例如插入新线等)? 或许我应该使用另一个框架? 到目前为止,我已经查看了htmlcleaner ,但是给出的示例并未建议我支持所需的function。

Jsoup设置了Accept-Language

是否有可能为Jsoup连接设置Accept-Language参数。 我尝试过: Jsoup.connection(url).userAgent(“Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0”).get(); Jsoup.connection(url).userAgent(“Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6”).get(); 但不起作用……