Tag: porter stemmer

我想要一个Java阿拉伯语词干分析器

我正在寻找阿拉伯语的Java词干分析器。 我发现了一个名为“AraMorph”的lib,但它的输出是无法控制的,它会形成不需要的单词。 阿拉伯语还有其他的词干吗?

在java中停止单词和词干分析器

我正在考虑在我的相似程序中加上一个停用词,然后是一个词干分析器(对于搬运工1或2来说取决于最容易实现的) 我想知道,因为我从文件中读取我的文本作为整行并将它们保存为长字符串,所以如果我有两个字符串ex。 String one = “I decided buy something from the shop.”; String two = “Nevertheless I decidedly bought something from a shop.”; 现在我得到了那些字符串 词干:我可以直接在它上面使用词干分析器算法,将它保存为字符串然后继续处理相似性,就像在程序中实现词干分析器之前一样,就像运行one.stem(); 之类的事情? 停止说:这是如何解决的? 我只是用; one.replaceall(“我”,“”); 或者是否有一些特定的方法用于此过程? 我想继续使用字符串并获取字符串,然后在其上使用相似性算法来获得相似性。 Wiki没有说太多。 希望你能帮助我! 谢谢。 编辑:这是一个与学校相关的项目,我正在写一篇关于不同算法之间相似性的论文,所以我认为我不允许使用lucene或其他为我工作的库。 另外,在开始使用像Lucene和co这样的库之前,我想尝试理解它是如何工作的。 希望这不是太麻烦^^

Lucene Porter Stemmer不公开

如何在Lucene 3.6.2中使用Porter Stemmber类? 这是我有的: import org.apache.lucene.analysis.PorterStemmer; … PorterStemmer stemmer = new PorterStemmer(); term = stemmer.stem(term); 我被告知:在org.apache.lucene.analysis中,PorterStemmer不公开; 无法从外包装进入。 编辑:我也广泛阅读有关使用Snowball的内容,但不鼓励这样做。 什么是在Java中使用Lucene的正确方法?

是否有Porter2 stemmer的java实现

你知道Porter2词干分析器的任何java实现(或者用java编写的更好的词干分析器)吗? 我知道这里有一个java版本的Porter(不是Porter2): http://tartarus.org/~martin/PorterStemmer/java.txt 但在http://tartarus.org/~martin/PorterStemmer/上 ,作者提到Porter有点过时,建议使用Porter2,可在 http://snowball.tartarus.org/algorithms/english/stemmer.html 然而,我的问题是这个Porter2是用雪球写的(我之前从未听说过,所以对此一无所知)。 我正在寻找的是它的java版本。 谢谢。 非常感谢你的帮助。

用Lucene扼杀英语单词

我正在Java应用程序中处理一些英文文本,我需要阻止它们。 例如,从文字“amenities / amenity”我需要得到“amenit”。 该function如下: String stemTerm(String term){ … } 我找到了Lucene分析仪,但它看起来太复杂了我需要的东西。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html 有没有办法用它来阻止单词而无需构建分析器? 我不了解所有分析仪业务…… 编辑 :我实际上需要一个词干+词形还原。 Lucene可以这样做吗?