在JAVA中使用哪个NLP工具包？

我正在开展一个项目，该项目包括一个连接到NCBI（国家生物技术信息中心）的网站，并在那里搜索文章。事情是我必须对所有结果进行一些文本挖掘。我正在使用JAVA语言进行文本化，使用IAXFACES进行AJAX用于开发网站。我有什么：从搜索返回的文章列表。每篇文章都有一个ID和一个摘要。我们的想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字，找出最重复的关键词。然后在网站上显示搜索的相关字词。有任何想法吗？我在网上搜索了很多，我知道有名称实体识别，部分语音标记，有基因和蛋白质的NER GENIA词库，我已经尝试过阻止…停止单词列表等…我只需要知道最好的aproahc来解决这个问题。非常感谢。

我建议你使用POS标记和字符串标记的组合来提取每个摘要中的所有名词..然后使用某种字典/哈希来计算每个名词的频率，然后输出N个最多产的名词将其与其他一些智能过滤机制相结合，应该可以很好地为您提供摘要中的重要关键词
对于POS标签，请查看http://nlp.stanford.edu/software/index.shtml上的POS标签。

但是，如果你期望在你的语料库中有很多多字词而不是只提取名词，那么n = 2到4可以获得最多产的n-gram

有一个Apache项目…我还没有使用它，但OpenNLP是一个开源的Apache项目。它在孵化器中，所以它可能有点原始。

来自杰夫的搜索引擎咖啡馆的这篇文章还有其他一些建议。

这也可能是相关的： https ： //github.com/jdf/cue.language

它有停用词，单词和ngram频率，……

它是Wordle背后的软件的一部分。

我最终使用了Alias`i Ling Pipe

我该如何改变一个单词的字母呢？
如何取消正在运行的SQL查询？
JDBC-接口的实现
Java格式小时和分钟
如何为Kafka设置Java选项？
来自Webservice的JAXB类编组错误
导入Textfile并在Java中逐行读取
Drools Fusion支持持久，长时间运行的事件
如何拍摄网站的全屏截图

在JAVA中使用哪个NLP工具包？

velocity：除了在最后一次循环迭代中做一些事情

如何将消息发送到托管在IBM MQ集群中的不同队列管理器和主机名中的其他队列

使用JPA Criteria API进行分页的总行数

Java中的多人游戏。将客户端（播放器）连接到由其他客户端创建的游戏

如何获取有关“function”标志警告的更多信息？

具有多客户端通信的Java Server。

Java将枚举编译成什么？

常春藤似乎只能获取javadocjar子

如何使用GWT动态更新SelectionCell中的选项？

存储二进制代码的字符串数组的内存大小

在JAVA中使用哪个NLP工具包？

velocity：除了在最后一次循环迭代中做一些事情

如何将消息发送到托管在IBM MQ集群中的不同队列管理器和主机名中的其他队列

使用JPA Criteria API进行分页的总行数

Java中的多人游戏。 将客户端（播放器）连接到由其他客户端创建的游戏

如何获取有关“function”标志警告的更多信息？

具有多客户端通信的Java Server。

Java将枚举编译成什么？

常春藤似乎只能获取javadocjar子

如何使用GWT动态更新SelectionCell中的选项？

存储二进制代码的字符串数组的内存大小

Java中的多人游戏。将客户端（播放器）连接到由其他客户端创建的游戏