Tag: html parsing

使用Jsoup解析Html时出错: 我想解析html网站并获取字符串值。但是在解析div类时我收到错误。我写了上面的代码，但我收到了错误。 try { doc = Jsoup.connect(“http://tvrehberi.hurriyet.com.tr/program-detay/308271/deli-deli-olma”).get(); List saatItem = new ArrayList(); for (Element iterable : doc.getElementsByClass(“content&clear”)) { saatItem.add(iterable.text()); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } 此错误导致类具有空白字符。如果类值没有空白字符，则代码运行完美。我怎么解决这个问题？错误日志： 02-06 00:18:53.770: E/AndroidRuntime(28775): FATAL EXCEPTION: main 02-06 00:18:53.770: E/AndroidRuntime(28775): java.lang.RuntimeException: Unable to start activity ComponentInfo{com.example.htmlparsingtutorial/com.example.htmlparsingtutorial.MainActivity}: android.os.NetworkOnMainThreadException 02-06 00:18:53.770: […]

从Div标签获取文本: 我有一个带有多个div标签的主Div标签，如下所示。子Div标签没有与其他子div标签区分的class / id。现在我想从第二个子Div标签中提取文本值。我怎样才能做到这一点？ This is a monster Monster in Black 我想得到“黑衣怪物”的文字。这个Div没有id / name，也不确定这个样式是相同还是变化。我将如何使用jSoup提取？

用于读取javascript生成内容的java html解析器: 我使用jsoup通过以下函数读取网页。 public Document getDocuement(String url){ Document doc = null; try { doc = Jsoup.connect(url).timeout(20*1000).userAgent(“Mozilla”).get(); } catch (Exception e) { return null; } return doc; } 但每当我试图阅读包含javascript生成内容的网页时， jsoup都不会读取这些内容。即，页面的实际内容是通过一些javascript调用加载的。因此它不存在于该链接的页面源中。例如，这个博客： http ： //blog.rapporter.net/search/label/r 。有没有办法在使用Jsoup解析页面时获取javascript生成的内容？如果没有请建议任何可以解决这个问题的java html解析器..

如何在HTML文件中搜索某些标签？: 我在Java方面遇到了一些问题。怎么做：我想在HTML文件中搜索标签href和src，然后我想获得与该标签关联的URL。最好的方法是什么？谢谢您的帮助。最好的祝福。

如何将HTML内容转换为PDF而不会丢失使用Java的格式？: 我有一些HTML内容（包括格式标签，如strong ，图像等）。在我的Java代码中，我想将此HTML内容转换为PDF文档，而不会丢失HTML格式。无论如何在Java中使用它（使用iText或任何其他库）？

如何使用JAVA从html页面获取表格: 我正在开发一个项目，我试图从互联网上获取财务报表，并在JAVA应用程序中使用它们来自动创建比率和图表。我使用的网站使用登录名和密码来访问表。标签是TBODY，但html中还有另外两个TBODY。如何使用java将我的表打印到txt文件，然后我可以在我的应用程序中使用？最好的方法是什么，我应该阅读什么？

如何将Jsoup（Java html解析器）中生成的文档转换为字符串: 我有一个在jsoup中制作的文档，看起来像这样 Document doc = Jsoup.connect(“http://en.wikipedia.org/”).get(); 如何将该doc转换为字符串。

网页抓取，屏幕抓取，数据挖掘技巧？: 我正在研究一个项目，我需要做很多屏幕抓取才能尽快获得大量数据。我想知道是否有人知道任何好的API或资源来帮助我。顺便说一下，我正在使用java。这是我的工作流程到目前为止：连接到网站（使用Apache的HTTPComponents）网站包含一个部分，其中包含一些我需要访问的链接（使用内置的Java HTML解析器来确定我需要访问的所有链接是什么，这是烦人且杂乱的代码）访问我找到的所有链接对于我访问的每个链接，我需要提取更多数据，分布在多个页面上，因此我可能需要访问更多链接思考：有没有人知道任何更高级别/更智能的HTML解析器比内置的java解析器？基本上它是深度优先搜索。我想我想在某个时候制作这个multithreading，所以我可以并行访问其中的一些链接。也许我真正想要的是一个multithreading网络爬行库如果你还没弄明白，这是我第一次搞乱这个问题，所以我很难说清楚我的需求是什么。我非常感谢任何以前做过此事的人的任何意见。

如何解析表格第3列的单元格？: 我试图使用Jsoup解析的第3列的单元格。这是HTML： Linje Destination Nästa tur (min) Därefter 1 Hovshaga Kurortsv.55 — 1 Hovshaga via Resecentrum21 — 1 Teleborg5 45 这是我的代码尝试抛出NullPointerException ： URL url = null; try { url = new URL(“http://wap.nastabuss.se/its4wap/QueryForm.aspx?hpl=Teleborg+C+(V%C3%A4xj%C3%B6)”); } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.println(“1”); Document doc = null; try { System.out.println(“2”); […]

单击按钮以使其可见后解析HTML表: 我正在开发一个Java程序，它需要在启动时从网站读取数据。有问题的网站是这样的： http ： //bitcoincharts.com/charts/btceUSD#rg10zigHourlyztgSzm1g10zm2g25zv 要访问所需的表，页面底部附近有一个标题为“加载原始数据”的按钮。单击时，将显示包含所需信息的表。虽然我以前从未这样做过，但我相信我可以轻松地学习如何解析表格并将其放入某些数组中。然而，我无法弄清楚的是如何让我的程序“点击”该按钮以使表格显示。我该怎么做呢？编辑：这是我现在正在使用的。目前这打印绝对没有，我怀疑这是因为jsoup没有看到表，因为“加载原始数据”按钮没有被“点击”。 for (Element table : doc.select(“table[id=chart_table]”)) { for (Element row : table.select(“tr:gt(2)”)) { Elements tds = row.select(“td:not([rowspan])”); for (Element element : tds) { System.out.println(element); } } }

Tag: html parsing

使用Jsoup解析Html时出错

从Div标签获取文本

用于读取javascript生成内容的java html解析器

如何在HTML文件中搜索某些标签？

如何将HTML内容转换为PDF而不会丢失使用Java的格式？

如何使用JAVA从html页面获取表格

如何将Jsoup（Java html解析器）中生成的文档转换为字符串

网页抓取，屏幕抓取，数据挖掘技巧？

如何解析表格第3列的单元格？

单击按钮以使其可见后解析HTML表

一次可以在CPU上运行多少个线程

JavaFX如何将新的FXML内容注入当前场景

使用Spring框架的抽象工厂

从头开始构建Eclipse IDE – 如何指定目标操作系统？

使用spring AOP方面拦截方法？

java：如何将2d数组拆分为两个2d数组

为什么ZipInputStream无法读取ZipOutputStream的输出？

番石榴的ImmutableXXX真的不变吗？

IBM Websphere中的Java 7.1

将JPanel保存为图像高清质量

用@Depends注释StatelessBean到HornetQ-JMS队列

Mac OS X上的Java Swing GUI

带有带外数据的Java套接字

Spring表单绑定怎么做？无法将类型的值转换为所需类型

停止特定的java线程

Tag: html parsing

使用Jsoup解析Html时出错

从Div标签获取文本

用于读取javascript生成内容的java html解析器

如何在HTML文件中搜索某些标签？

如何将HTML内容转换为PDF而不会丢失使用Java的格式？

如何使用JAVA从html页面获取表格

如何将Jsoup（Java html解析器）中生成的文档转换为字符串

网页抓取，屏幕抓取，数据挖掘技巧？

如何解析表格第3列的单元格？

单击按钮以使其可见后解析HTML表

一次可以在CPU上运行多少个线程

JavaFX如何将新的FXML内容注入当前场景

使用Spring框架的抽象工厂

从头开始构建Eclipse IDE – 如何指定目标操作系统？

使用spring AOP方面拦截方法？

java：如何将2d数组拆分为两个2d数组

为什么ZipInputStream无法读取ZipOutputStream的输出？

番石榴的ImmutableXXX真的不变吗？

IBM Websphere中的Java 7.1

将JPanel保存为图像高清质量

用@Depends注释StatelessBean到HornetQ-JMS队列

Mac OS X上的Java Swing GUI

带有带外数据的Java套接字

Spring表单绑定怎么做？ 无法将类型的值转换为所需类型

停止特定的java线程

Spring表单绑定怎么做？无法将类型的值转换为所需类型