Lucene和Lucene.Net的俄语分析器
Lucene对俄语的支持很差。
RussianAnalyzer(lucene-contrib的一部分)质量很差。
用于Snowball的RussianStemmer模块更糟糕。 它不能识别Unicode字符串中的俄语文本,显然假设必须使用Unicode和KOI8-R的某些奇怪组合。
你知道更好的解决方案吗?
我的答案可能为时已晚,但据记载,我发现AOT项目的分析仪比Lucene附带的分析仪要好得多。
我使用过http://code.google.com/p/russianmorphology/
如果所有其他方法都失败了,请使用Sphinx
项目http://code.google.com/p/russianmorphology/已移至https://github.com/AKuznetsov/russianmorphology 。 请考虑该项目的新主机。
这就是开源之美。 你有源代码,所以如果当前的实现不适合你,你可以随时创建自己的,甚至更好的,扩展现有的。 一个好的开始将是“Lucene in Action”一书。