从java中的html文件中检索文本
我想从java中的html文件中获取文本
我的html
文件是:
vishal
patel vishal patel
我想这样输出
vishal patel vishal patel
怎么做请帮助我
我使用了一个名为JSoup的库。
从HTML文件中检索纯文本部分非常简单。
这很简单:
Jsoup.parse(html).text();
为您提供HTML文件中的文本
最好使用html Parser ….我更喜欢使用JSoup解析器(opensource包)….
import org.jsoup.Jsoup; public class HTMLUtils { public static String extractText(Reader reader) throws IOException { StringBuilder sb = new StringBuilder(); BufferedReader br = new BufferedReader(reader); String line; while ((line = br.readLine()) != null) { sb.append(line); } String textOnly = Jsoup.parse(sb.toString()).text(); return textOnly; } public final static void main(String[] args) throws Exception { FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html"); System.out.println(HTMLUtils.extractText(reader)); } }