Java命名实体识别库

我正在为java寻找一个简单但“足够好”的命名实体识别库(和字典),我希望处理电子邮件和文档并提取一些“基本信息”,如:名称,地点,地址和日期

我一直在四处寻找,而且大多数似乎都处于沉重的一面和完整的NLP项目中。

有什么建议?

您可能想看看我之前对类似问题的一个答案 。

除此之外,大多数较轻的NER系统在很大程度上依赖于所使用的域。 例如,您将找到大量有关生物医学NER系统的工具和论文。 除了我以前的post(如果你想做NER已经包含我的主要建议),这里有一些你可能想要研究的工具:

  • 斯坦福CER-NER
  • 如果您对此特定域感兴趣,请使用Postech Biomedical NER系统
  • OpenCalais似乎是一个商业系统。 OpenCalais有UIMA包装,但它们似乎过时了。 UIMA还有一个基于字典的Context-Mapper注释器可以帮助你。 请注意,UIMA意味着学习曲线的开销很大;-)
  • OpenNLP也有一个NER工具。
  • 除其他事项外, Balie也做NER。
  • ABNER做NER,但它再次专注于生物医学领域。
  • 来自德国耶拿大学的JULIE实验室工具也做NER。 它们具有独立版本和UIMA分析引擎。

还有一句话:如果没有输入标记,你就不会逃脱。 自然语言的标记化有点不重要,这就是为什么我建议你使用一个为你做这两者的工具箱。

顺便说一句,我最近跑过OpenCalais ,它似乎具有我正在照顾的function。

您可能也想尝试Alchemy API 。 它类似于Open Calais。

对于NLP语法,您可以查看http://code.google.com/p/graph-expression/和http://gate.ac.uk/