Tag: 停止词

如何以更有效的方式从大型集合文件中删除停用词?

我有200,000个文件,我将为每个文件处理和提取令牌。 所有文件的大小为1.5GB。 当我编写用于从每个文件中提取标记的代码时,它运行良好。 在所有执行时间是10分钟。 在那之后,我试图删除stopwords性能严重下降。 这需要25到30分钟。 我正在使用网站上的停用词这里有大约571个停用词。 一般过程是一次从文本文件中提取每个停用词,并与文件中的每个令牌进行比较。 这是代码的存根 StringBuilder sb = new StringBuilder(); for(String s : tokens) Scanner sc=new Scanner(new File(“stopwords.txt”)); while(sc.hasNext()) { if(sc.next().equals(s)){ flag = true; break; } } if(flag) sb.append(s + “\n” ); flag = false; } String str = sb.toString() **忽略错误。 上述代码的性能至少比代码低10倍。 执行需要50到60分钟。 StringBuilder sb = new StringBuilder(); String s = […]

如何删除java中的停用词?

我想删除java中的停用词。 所以,我从文本文件中读取了停用词。 并存储Set Set stopWords = new LinkedHashSet(); BufferedReader br = new BufferedReader(new FileReader(“stopwords.txt”)); String words = null; while( (words = br.readLine()) != null) { stopWords.add(words.trim()); } br.close(); 而且,我读了另一个文本文件。 所以,我想删除文本文件中的重复字符串。 我怎么能够?