Tag: jsoup

如何解析具有多个表的页面: 关于如何刮取多个表的网页的任何想法？我正在连接到网页这是一个表，但在同一个网页上有多个表我也无法弄清楚如何阅读表… XML： Top 300 Overall Fantasy Rankings RANK CENTRES TEAM POS GP G A PTS +/- PIM PPP 1. Steven Stamkos Tampa Bay C 81 50 51 101 -2 56 38 Iterator trSIter = doc.select(“table”) .iterator(); while (trSIter.hasNext()) { Element trEl = trSIter.next().child(0); Elements tdEls = trEl.children(); Iterator tdIter = tdEls.select(“tr”).iterator(); System.out.println(“><"+tdsEls); Iterator […]

Jsoup connect（）：绕过谷歌validation码: 我做了一个小应用程序，我必须根据关键字检索URL。这是代码： Elements doc = Jsoup .connect(request) .userAgent( “Mozilla 5.0 (Windows NT 6.1)”) .timeout(5000).get().select(“li.g>h3>a”); for (Element link : doc) { String url = link.absUrl(“href”); try { url = URLDecoder.decode(url.substring(url.indexOf(‘=’) + 1, url.indexOf(‘&’)), “UTF-8”); } catch (UnsupportedEncodingException e) { // TODO Auto-generated catch block e.printStackTrace(); } if(!url.startsWith(“http”)) continue; // Ads/news/etc. else if(url.contains(“/pdf/”)) continue; else if(url.contains(“//github.com/”)) continue; […]

Jsoup – CSS查询选择器问题（？）: 我有一个奇怪的问题，我一直在使用Jsoup 1.7.2 ，没有问题，只有现在，当我尝试从这个网站检索主要标题： www.jornaldamarinha.pt ，使用此代码： // Connecting… Document doc = Jsoup.connect(“http://www.jornaldamarinha.pt”) .timeout(0) .get(); // “*[class*=zincontent-wrap]” in “Jsoup idiom”, means: // Select all tags that contains classes with “zincontent-wrap” on its name. Elements elems = doc.select(“*[class*=zincontent-wrap]”); // Retrieves 0 results! int t = elems.size(); Log.w(“INFO”, “Total Headlines: ” + t); // Loop trought all retrieved headlines: […]

使用Jsoup解析Html时出错: 我想解析html网站并获取字符串值。但是在解析div类时我收到错误。我写了上面的代码，但我收到了错误。 try { doc = Jsoup.connect(“http://tvrehberi.hurriyet.com.tr/program-detay/308271/deli-deli-olma”).get(); List saatItem = new ArrayList(); for (Element iterable : doc.getElementsByClass(“content&clear”)) { saatItem.add(iterable.text()); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } 此错误导致类具有空白字符。如果类值没有空白字符，则代码运行完美。我怎么解决这个问题？错误日志： 02-06 00:18:53.770: E/AndroidRuntime(28775): FATAL EXCEPTION: main 02-06 00:18:53.770: E/AndroidRuntime(28775): java.lang.RuntimeException: Unable to start activity ComponentInfo{com.example.htmlparsingtutorial/com.example.htmlparsingtutorial.MainActivity}: android.os.NetworkOnMainThreadException 02-06 00:18:53.770: […]

从Div标签获取文本: 我有一个带有多个div标签的主Div标签，如下所示。子Div标签没有与其他子div标签区分的class / id。现在我想从第二个子Div标签中提取文本值。我怎样才能做到这一点？ This is a monster Monster in Black 我想得到“黑衣怪物”的文字。这个Div没有id / name，也不确定这个样式是相同还是变化。我将如何使用jSoup提取？

将线程实现到Java Web Crawler中: 这是我写的原始网络爬虫:(仅供参考） https://github.com/domshahbazi/java-webcrawler/tree/master 这是一个简单的网络爬虫，它访问给定的初始网页，从页面中删除所有链接并将它们添加到队列（LinkedList），然后逐个弹出它们，每次访问，循环再次开始。为了加速我的程序和学习，我尝试使用线程实现，这样我就可以同时运行多个线程，在更短的时间内索引更多的页面。以下是每个class级：主要课程 public class controller { public static void main(String args[]) throws InterruptedException { DataStruc data = new DataStruc(“http://www.imdb.com/title/tt1045772/?ref_=nm_flmg_act_12”); Thread crawl1 = new Crawler(data); Thread crawl2 = new Crawler(data); crawl1.start(); crawl2.start(); } } 爬虫类（线程） public class Crawler extends Thread { /** Instance of Data Structure **/ DataStruc data; /** Number […]

使用带有ID的元素的Jsoup“屏幕刮”: 全部 – 我无法弄清楚如何获取具有ID的元素的值。到目前为止我有这个 @Override protected Void doInBackground(Void… unused) { org.jsoup.nodes.Document doc = null; try { doc = Jsoup.connect(“http://www3.rtd-denver.com/schedules/getSchedule.action?runboardId=123&routeId=0&routeType=1&serviceType=3”).get(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } docTitle = doc.select(“table[id=\”td1-7\”] [class=\”datacell\”]”).first().text(); //NOT SURE HERE return null; 我想要的是得到的值，当我使用它时，我得到一个力，所以我知道它是不对的。我怎样才能得到这个价值？

使用Jsoup获取图像URL: 我正在使用jSoup从网站的html中提取信息。但我在以下情况下获取数据时遇到问题。我正在使用的HTML包含下面的一部分，我想得到所有那些图像url 我使用的有点如下： doc = Jsoup.connect(“http://www.myUrl”).get(); castsImageUrl = doc.select(“ul.cast > li > a > img”); for (Element el : castsImageUrl)System.out.println(el.text()); 但我一无所获。我无法弄清楚我的问题。任何人都可以帮我解决它

使用jsoup来转义不允许的标签: 我正在评估jsoup的function，它将清理（但不删除！）非白名单标签。假设只允许标签，所以输入如下 foo bar baz 必须产生以下结果： foo bar <script onLoad=’stealYourCookies();’>baz</script> 我用jsoup看到以下问题/问题： document.getAllElements()始终采用，和。是的，我可以调用document.body().getAllElements()但重点是我不知道我的源文件是完整的HTML文档还是只是正文 – 我希望结果的形状和forms与它进来了; 如何将…替换为<script>…</script> ？我只想用转义实体替换括号，并且不想改变任何属性等Node.replaceWith听起来像是一种矫枉过正。是否可以完全关闭漂亮的打印（例如插入新线等）？或许我应该使用另一个框架？到目前为止，我已经查看了htmlcleaner ，但是给出的示例并未建议我支持所需的function。

Jsoup设置了Accept-Language: 是否有可能为Jsoup连接设置Accept-Language参数。我尝试过： Jsoup.connection(url).userAgent(“Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0”).get(); Jsoup.connection(url).userAgent(“Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6”).get(); 但不起作用……

Tag: jsoup

如何解析具有多个表的页面

Jsoup connect（）：绕过谷歌validation码

Jsoup – CSS查询选择器问题（？）

使用Jsoup解析Html时出错

从Div标签获取文本

将线程实现到Java Web Crawler中

使用带有ID的元素的Jsoup“屏幕刮”

使用Jsoup获取图像URL

使用jsoup来转义不允许的标签

Jsoup设置了Accept-Language

int不会覆盖Java中的Integer

使用Set面向循环依赖时的Java序列化错误

required：double found：没有参数

Java – 如何在JUnit中使用存根

viewParam值未在ViewScoped bean中设置

覆盖以前的控制台输出

在AJAX onchange事件中获取Wicket文本框的值

Java UnknownFormatConversionException

复制/粘贴无法在签名的Applet中工作

如何在Java中获取父URL？

制作DateFormat Threadsafe。使用什么，同步或线程本地

当JTextArea超过一定数量的行时启用滚动条

如果两个不同的对象具有相同的哈希码，会发生什么？

File.isFile（）和File.isDirectory（）都返回false

从JSON对象填充JTable

Tag: jsoup

如何解析具有多个表的页面

Jsoup connect（）：绕过谷歌validation码

Jsoup – CSS查询选择器问题（？）

使用Jsoup解析Html时出错

从Div标签获取文本

将线程实现到Java Web Crawler中

使用带有ID的元素的Jsoup“屏幕刮”

使用Jsoup获取图像URL

使用jsoup来转义不允许的标签

Jsoup设置了Accept-Language

int不会覆盖Java中的Integer

使用Set面向循环依赖时的Java序列化错误

required：double found：没有参数

Java – 如何在JUnit中使用存根

viewParam值未在ViewScoped bean中设置

覆盖以前的控制台输出

在AJAX onchange事件中获取Wicket文本框的值

Java UnknownFormatConversionException

复制/粘贴无法在签名的Applet中工作

如何在Java中获取父URL？

制作DateFormat Threadsafe。 使用什么，同步或线程本地

当JTextArea超过一定数量的行时启用滚动条

如果两个不同的对象具有相同的哈希码，会发生什么？

File.isFile（）和File.isDirectory（）都返回false

从JSON对象填充JTable

制作DateFormat Threadsafe。使用什么，同步或线程本地