Lucene和Lucene.Net的俄语分析器

Lucene对俄语的支持很差。

RussianAnalyzer(lucene-contrib的一部分)质量很差。

用于Snowball的RussianStemmer模块更糟糕。 它不能识别Unicode字符串中的俄语文本,显然假设必须使用Unicode和KOI8-R的某些奇怪组合。

你知道更好的解决方案吗?

我的答案可能为时已晚,但据记载,我发现AOT项目的分析仪比Lucene附带的分析仪要好得多。

我使用过http://code.google.com/p/russianmorphology/

如果所有其他方法都失败了,请使用Sphinx

项目http://code.google.com/p/russianmorphology/已移至https://github.com/AKuznetsov/russianmorphology 。 请考虑该项目的新主机。

这就是开源之美。 你有源代码,所以如果当前的实现不适合你,你可以随时创建自己的,甚至更好的,扩展现有的。 一个好的开始将是“Lucene in Action”一书。