Tag: html parsing

使用Jsoup解析Html时出错

我想解析html网站并获取字符串值。 但是在解析div类时我收到错误。 我写了上面的代码,但我收到了错误。 try { doc = Jsoup.connect(“http://tvrehberi.hurriyet.com.tr/program-detay/308271/deli-deli-olma”).get(); List saatItem = new ArrayList(); for (Element iterable : doc.getElementsByClass(“content&clear”)) { saatItem.add(iterable.text()); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } 此错误导致类具有空白字符。 如果类值没有空白字符,则代码运行完美。 我怎么解决这个问题 ? 错误日志: 02-06 00:18:53.770: E/AndroidRuntime(28775): FATAL EXCEPTION: main 02-06 00:18:53.770: E/AndroidRuntime(28775): java.lang.RuntimeException: Unable to start activity ComponentInfo{com.example.htmlparsingtutorial/com.example.htmlparsingtutorial.MainActivity}: android.os.NetworkOnMainThreadException 02-06 00:18:53.770: […]

从Div标签获取文本

我有一个带有多个div标签的主Div标签,如下所示。 子Div标签没有与其他子div标签区分的class / id。 现在我想从第二个子Div标签中提取文本值。 我怎样才能做到这一点? This is a monster Monster in Black 我想得到“黑衣怪物”的文字。 这个Div没有id / name,也不确定这个样式是相同还是变化。 我将如何使用jSoup提取?

用于读取javascript生成内容的java html解析器

我使用jsoup通过以下函数读取网页。 public Document getDocuement(String url){ Document doc = null; try { doc = Jsoup.connect(url).timeout(20*1000).userAgent(“Mozilla”).get(); } catch (Exception e) { return null; } return doc; } 但每当我试图阅读包含javascript生成内容的网页时, jsoup都不会读取这些内容。 即,页面的实际内容是通过一些javascript调用加载的。因此它不存在于该链接的页面源中。 例如,这个博客: http : //blog.rapporter.net/search/label/r 。 有没有办法在使用Jsoup解析页面时获取javascript生成的内容? 如果没有请建议任何可以解决这个问题的java html解析器..

如何在HTML文件中搜索某些标签?

我在Java方面遇到了一些问题。 怎么做:我想在HTML文件中搜索标签href和src,然后我想获得与该标签关联的URL。 最好的方法是什么? 谢谢您的帮助。 最好的祝福。

如何将HTML内容转换为PDF而不会丢失使用Java的格式?

我有一些HTML内容(包括格式标签,如strong ,图像等)。在我的Java代码中,我想将此HTML内容转换为PDF文档,而不会丢失HTML格式。 无论如何在Java中使用它(使用iText或任何其他库)?

如何使用JAVA从html页面获取表格

我正在开发一个项目,我试图从互联网上获取财务报表,并在JAVA应用程序中使用它们来自动创建比率和图表。 我使用的网站使用登录名和密码来访问表。 标签是TBODY,但html中还有另外两个TBODY。 如何使用java将我的表打印到txt文件,然后我可以在我的应用程序中使用? 最好的方法是什么,我应该阅读什么?

如何将Jsoup(Java html解析器)中生成的文档转换为字符串

我有一个在jsoup中制作的文档,看起来像这样 Document doc = Jsoup.connect(“http://en.wikipedia.org/”).get(); 如何将该doc转换为字符串。

网页抓取,屏幕抓取,数据挖掘技巧?

我正在研究一个项目,我需要做很多屏幕抓取才能尽快获得大量数据。 我想知道是否有人知道任何好的API或资源来帮助我。 顺便说一下,我正在使用java。 这是我的工作流程到目前为止: 连接到网站(使用Apache的HTTPComponents) 网站包含一个部分,其中包含一些我需要访问的链接(使用内置的Java HTML解析器来确定我需要访问的所有链接是什么,这是烦人且杂乱的代码) 访问我找到的所有链接 对于我访问的每个链接,我需要提取更多数据,分布在多个页面上,因此我可能需要访问更多链接 思考: 有没有人知道任何更高级别/更智能的HTML解析器比内置的java解析器? 基本上它是深度优先搜索。 我想我想在某个时候制作这个multithreading,所以我可以并行访问其中的一些链接。 也许我真正想要的是一个multithreading网络爬行库 如果你还没弄明白,这是我第一次搞乱这个问题,所以我很难说清楚我的需求是什么。 我非常感谢任何以前做过此事的人的任何意见。

如何解析表格第3列的单元格?

我试图使用Jsoup解析 的第3列的单元格。 这是HTML: Linje Destination Nästa tur (min)   Därefter   1 Hovshaga Kurortsv.55 — 1 Hovshaga via Resecentrum21 — 1 Teleborg5 45 这是我的代码尝试抛出NullPointerException : URL url = null; try { url = new URL(“http://wap.nastabuss.se/its4wap/QueryForm.aspx?hpl=Teleborg+C+(V%C3%A4xj%C3%B6)”); } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.println(“1”); Document doc = null; try { System.out.println(“2”); […]

单击按钮以使其可见后解析HTML表

我正在开发一个Java程序,它需要在启动时从网站读取数据。 有问题的网站是这样的: http : //bitcoincharts.com/charts/btceUSD#rg10zigHourlyztgSzm1g10zm2g25zv 要访问所需的表,页面底部附近有一个标题为“加载原始数据”的按钮。 单击时,将显示包含所需信息的表。 虽然我以前从未这样做过,但我相信我可以轻松地学习如何解析表格并将其放入某些数组中。 然而,我无法弄清楚的是如何让我的程序“点击”该按钮以使表格显示。 我该怎么做呢? 编辑:这是我现在正在使用的。 目前这打印绝对没有,我怀疑这是因为jsoup没有看到表,因为“加载原始数据”按钮没有被“点击”。 for (Element table : doc.select(“table[id=chart_table]”)) { for (Element row : table.select(“tr:gt(2)”)) { Elements tds = row.select(“td:not([rowspan])”); for (Element element : tds) { System.out.println(element); } } }