从java中的html文件中检索文本

我想从java中的html文件中获取文本

我的html文件是:

  

vishal

patel vishal patel

我想这样输出

 vishal patel vishal patel 

怎么做请帮助我

我使用了一个名为JSoup的库。
从HTML文件中检索纯文本部分非常简单。
这很简单:

 Jsoup.parse(html).text(); 

为您提供HTML文件中的文本

最好使用html Parser ….我更喜欢使用JSoup解析器(opensource包)….

 import org.jsoup.Jsoup; public class HTMLUtils { public static String extractText(Reader reader) throws IOException { StringBuilder sb = new StringBuilder(); BufferedReader br = new BufferedReader(reader); String line; while ((line = br.readLine()) != null) { sb.append(line); } String textOnly = Jsoup.parse(sb.toString()).text(); return textOnly; } public final static void main(String[] args) throws Exception { FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html"); System.out.println(HTMLUtils.extractText(reader)); } }