Java文本分析库

我正在寻找一个java驱动的解决方案,以满足分析句子的需求,以记录关键词是正面还是负面使用。

即关键词可能是’cabbages’和句子: –

‘我喜欢卷心菜但不喜欢豌豆’

我想要一种java文本分析器来记录这个积极的东西。 lucene(Hibernate-Search)库可以用于此吗?

有什么想法吗?

你正在寻找“情绪分析”。 一种可能性是LingPipe ,他也很友好地链接到他们的竞争对手 。 Jeff Dalton在他的博客中也有很多自然语言处理工具。

我怀疑有类似的东西。 Lucene绝对不能开箱即用。

您如何以可编程方式评估的方式定义 “关键词是否被正面或负面使用”? 要做到这一点,你必须分析文本的实际含义,这是一个甚至无法解决的AI问题。

我想你可以通过对关键字是否经常接近正面(好的,好的,好的,精彩的)或负面的(坏的,讨厌的,蹩脚的,该死的)关键字进行统计分析来解决它,但即使在那里,否定,讽刺和复杂的句子结构将是有问题的。

看一下以Lucene为基础的Mahout Taste ,但是你可以开箱即可添加很多东西。 (编辑)我应该补充一点,Mahout Taste只您正在寻找的内容有关,而不是100%匹配。