使用Jsoup提取字符串

我试图通过使用Jsoup库在网站html页面中获取一些名称formsclass属性,问题是我使用getElementsByClass("name")按类获取元素并将其存储到字符串变量中并且结果像这样的“迈克·安德罗抢劫银行玛丽亚·杰拉尔多·路易斯……等等”。 但我想要的是分开各个名称并将它们存储到数组中。 以下是代码段:

 public String processText(String htmlPage) { Document html = Jsoup.parse(htmlPage); String names = html.body().getElementsByClass("name").text(); return names; } 

更多信息:

源页面是一个html页面,我将完整的html代码保存在一个字符串中,然后处理该字符串以仅提取class="name"下的Elements

我传递给processText方法的htmlPage类似于以下内容:

 
Rob Kardashian

你可以简单地使用split函数从字符串中获取数组

 String arr[]=names.trim().split("\\s"); 

加上如果您在名称之间有空格和制表符,则使用

  String arr[]=names.split("\\s+"); 

更新:

  ArrayList name=new ArrayList(); for (Element output: html.body().getElementsByClass("name")) { name.add(output.text()); } 

示例链接

输出:

在此处输入图像描述

链接转换列表到数组