Tag: stop words

如何在java中使用lucene添加自定义停用词

我正在使用lucene删除英语停止词,但我的要求是删除英语停止词和自定义停止词。 下面是我使用lucene删除英语停用词的代码。 我的示例代码: public class Stopwords_remove { public String removeStopWords(String string) throws IOException { StandardAnalyzer ana = new StandardAnalyzer(Version.LUCENE_30); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_36,newStringReader(string)); StringBuilder sb = new StringBuilder(); tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, ana.STOP_WORDS_SET); CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class); while (tokenStream.incrementToken()) { if (sb.length() > 0) { sb.append(” “); } sb.append(token.toString()); } return sb.toString(); } […]

Tokenize,使用Lucene和Java删除停用词

我试图用Lucene标记并删除txt文件中的停用词。 我有这个: public String removeStopWords(String string) throws IOException { Set stopWords = new HashSet(); stopWords.add(“a”); stopWords.add(“an”); stopWords.add(“I”); stopWords.add(“the”); TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43, new StringReader(string)); tokenStream = new StopFilter(Version.LUCENE_43, tokenStream, stopWords); StringBuilder sb = new StringBuilder(); CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class); while (tokenStream.incrementToken()) { if (sb.length() > 0) { sb.append(” “); } sb.append(token.toString()); System.out.println(sb); } return […]

在java中停止单词和词干分析器

我正在考虑在我的相似程序中加上一个停用词,然后是一个词干分析器(对于搬运工1或2来说取决于最容易实现的) 我想知道,因为我从文件中读取我的文本作为整行并将它们保存为长字符串,所以如果我有两个字符串ex。 String one = “I decided buy something from the shop.”; String two = “Nevertheless I decidedly bought something from a shop.”; 现在我得到了那些字符串 词干:我可以直接在它上面使用词干分析器算法,将它保存为字符串然后继续处理相似性,就像在程序中实现词干分析器之前一样,就像运行one.stem(); 之类的事情? 停止说:这是如何解决的? 我只是用; one.replaceall(“我”,“”); 或者是否有一些特定的方法用于此过程? 我想继续使用字符串并获取字符串,然后在其上使用相似性算法来获得相似性。 Wiki没有说太多。 希望你能帮助我! 谢谢。 编辑:这是一个与学校相关的项目,我正在写一篇关于不同算法之间相似性的论文,所以我认为我不允许使用lucene或其他为我工作的库。 另外,在开始使用像Lucene和co这样的库之前,我想尝试理解它是如何工作的。 希望这不是太麻烦^^

Tokenizer,停止Word删除,用Java封装

我正在寻找一个类或方法,它需要长达100多个单词和标记的字符串,删除用于IR系统的停用词和词干。 例如: “那只肥胖的大猫,对’袋鼠’说’你最有趣的家伙’……” 标记器将删除标点符号并返回单词的ArrayList 停用词删除器会删除“the”,“to”等字样 词干将减少每个词的“根”,例如“最有趣”会变得有趣 提前谢谢了。