Java命名实体识别库
我正在为java寻找一个简单但“足够好”的命名实体识别库(和字典),我希望处理电子邮件和文档并提取一些“基本信息”,如:名称,地点,地址和日期
我一直在四处寻找,而且大多数似乎都处于沉重的一面和完整的NLP项目中。
有什么建议?
您可能想看看我之前对类似问题的一个答案 。
除此之外,大多数较轻的NER系统在很大程度上依赖于所使用的域。 例如,您将找到大量有关生物医学NER系统的工具和论文。 除了我以前的post(如果你想做NER已经包含我的主要建议),这里有一些你可能想要研究的工具:
- 斯坦福CER-NER
- 如果您对此特定域感兴趣,请使用Postech Biomedical NER系统
- OpenCalais似乎是一个商业系统。 OpenCalais有UIMA包装,但它们似乎过时了。 UIMA还有一个基于字典的Context-Mapper注释器可以帮助你。 请注意,UIMA意味着学习曲线的开销很大;-)
- OpenNLP也有一个NER工具。
- 除其他事项外, Balie也做NER。
- ABNER做NER,但它再次专注于生物医学领域。
- 来自德国耶拿大学的JULIE实验室工具也做NER。 它们具有独立版本和UIMA分析引擎。
还有一句话:如果没有输入标记,你就不会逃脱。 自然语言的标记化有点不重要,这就是为什么我建议你使用一个为你做这两者的工具箱。
顺便说一句,我最近跑过OpenCalais ,它似乎具有我正在照顾的function。
您可能也想尝试Alchemy API 。 它类似于Open Calais。
对于NLP语法,您可以查看http://code.google.com/p/graph-expression/和http://gate.ac.uk/