使用jsoup将HTML解析为格式化明文

我正在开发一个maven项目，允许我解析网站上的html数据。我能够使用以下代码解析它：

public void parseData(){ String url = "http://stackoverflow.com/help/on-topic"; try { Document doc = Jsoup.connect(url).get(); Element essay = doc.select("div.col-section").first(); String essayText = essay.text(); jTextAreaAdem.setText(essayText); } catch (IOException ex) { Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex); } }

到目前为止我没有问题。我可以解析html数据。我正在使用jsoup中的select方法并使用“div.col-section”检索数据，这意味着我正在寻找具有类col-section的div元素。我想在textarea中打印数据。我的结果是一个巨大的段落，即使网站上的真实数据不止一段。那么如何解析数据就像网站上的数据一样？

它没有格式化的原因是格式化在HTML中 – 带有

和

标签等。在块元素上调用.text()会丢失该格式。

Jsoup有一个HTML到纯文本转换器的示例，您可以通过提供div元素作为焦点来适应您的需求。

或者，您可以选择"div.col-section > *" ，并遍历每个元素，并使用换行符打印该文本。

使用jsoup将HTML解析为格式化明文

在JBoss / JAAS中使用HTTP Request.login

在jdk1.6中使用Endorsed目录的确切方法是什么

如何在调试Java代码时跳过循环？

如何找到它的星期几 – Java

如何从64位Java连接到Access .mdb数据库？

如何为Eclipse安装XULRunner

为什么Java 8中的Cloneable中没有默认的clone（）

高效的hashCode（）实现

在java-8中解组xml时出错“安全处理org.xml.sax.SAXNotRecognizedException导致java.lang.IllegalStateException”

Java使GUI等待计时器