在JAVA中使用哪个NLP工具包?

我正在开展一个项目,该项目包括一个连接到NCBI(国家生物技术信息中心)的网站,并在那里搜索文章。 事情是我必须对所有结果进行一些文本挖掘。 我正在使用JAVA语言进行文本化,使用IAXFACES进行AJAX用于开发网站。 我有什么:从搜索返回的文章列表。 每篇文章都有一个ID和一个摘要。 我们的想法是从每个抽象文本中获取关键字。 然后比较所有摘要中的所有关键字,找出最重复的关键词。 然后在网站上显示搜索的相关字词。 有任何想法吗 ? 我在网上搜索了很多,我知道有名称实体识别,部分语音标记,有基因和蛋白质的NER GENIA词库,我已经尝试过阻止…停止单词列表等…我只需要知道最好的aproahc来解决这个问题。 非常感谢。

我建议你使用POS标记和字符串标记的组合来提取每个摘要中的所有名词..然后使用某种字典/哈希来计算每个名词的频率,然后输出N个最多产的名词将其与其他一些智能过滤机制相结合,应该可以很好地为您提供摘要中的重要关键词
对于POS标签,请查看http://nlp.stanford.edu/software/index.shtml上的POS标签。

但是,如果你期望在你的语料库中有很多多字词而不是只提取名词,那么n = 2到4可以获得最多产的n-gram

有一个Apache项目…我还没有使用它,但OpenNLP是一个开源的Apache项目。 它在孵化器中,所以它可能有点原始。

来自杰夫的搜索引擎咖啡馆的这篇文章还有其他一些建议。

这也可能是相关的: https : //github.com/jdf/cue.language

它有停用词,单词和ngram频率,……

它是Wordle背后的软件的一部分。

我最终使用了Alias`i Ling Pipe