Tag: stemming

Lucene词干分子之间的区别:EnglishStemmer,PorterStemmer,LovinsStemmer

有没有人比较过Lucene的这些词干分析器(包org.tartarus.snowball.ext):EnglishStemmer,PorterStemmer,LovinsStemmer? 它们背后的算法的优点/缺点是什么? 什么时候应该使用它们? 或许还有一些算法可用于英语词汇? 谢谢。

Tokenizer,停止Word删除,用Java封装

我正在寻找一个类或方法,它需要长达100多个单词和标记的字符串,删除用于IR系统的停用词和词干。 例如: “那只肥胖的大猫,对’袋鼠’说’你最有趣的家伙’……” 标记器将删除标点符号并返回单词的ArrayList 停用词删除器会删除“the”,“to”等字样 词干将减少每个词的“根”,例如“最有趣”会变得有趣 提前谢谢了。

用Lucene扼杀英语单词

我正在Java应用程序中处理一些英文文本,我需要阻止它们。 例如,从文字“amenities / amenity”我需要得到“amenit”。 该function如下: String stemTerm(String term){ … } 我找到了Lucene分析仪,但它看起来太复杂了我需要的东西。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html 有没有办法用它来阻止单词而无需构建分析器? 我不了解所有分析仪业务…… 编辑 :我实际上需要一个词干+词形还原。 Lucene可以这样做吗?