使用jsoup将HTML解析为格式化明文

我正在开发一个maven项目,允许我解析网站上的html数据。 我能够使用以下代码解析它:

public void parseData(){ String url = "http://stackoverflow.com/help/on-topic"; try { Document doc = Jsoup.connect(url).get(); Element essay = doc.select("div.col-section").first(); String essayText = essay.text(); jTextAreaAdem.setText(essayText); } catch (IOException ex) { Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex); } } 

到目前为止我没有问题。 我可以解析html数据。 我正在使用jsoup中的select方法并使用“div.col-section”检索数据,这意味着我正在寻找具有类col-section的div元素。 我想在textarea中打印数据。 我的结果是一个巨大的段落,即使网站上的真实数据不止一段。 那么如何解析数据就像网站上的数据一样?

它没有格式化的原因是格式化在HTML中 – 带有

    标签等。在块元素上调用.text()会丢失该格式。

    Jsoup有一个HTML到纯文本转换器的示例,您可以通过提供div元素作为焦点来适应您的需求。

    或者,您可以选择"div.col-section > *" ,并遍历每个元素,并使用换行符打印该文本。