有没有办法获取OpenNLP的“原始”文本数据？

我知道之前曾问过这个问题 – 但答案并不令人满意（从某种意义上说，答案只是一个链接）。

所以我的问题是，有没有办法扩展现有的openNLP模型？我已经了解了DBPedia / Wikipedia的技术。但是如果我只是想附加一些文字来改进模型呢？真的没有办法吗？（如果是这样 – 这真的很愚蠢……）

不幸的是，你做不到。请参阅此问题，该问题详细解答了同一问题。

我认为，这是一个问题，因为当你处理文本时，你经常会遇到许可问题。例如，您无法在Twitter数据上构建语料库并将其发布到社区（有关更多信息，请参阅此文章）。

因此，公司通常会构建特定于域的语料库并在内部使用它们。例如，我们在我们的研究项目中做过。因此，我们构建了一个工具（Quick Pad Tagger）来有效地创建带注释的语料库（参见此处）。

好吧，我认为这需要一个单独的答案。我找到了Yago数据库： http ：//www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//

这个数据库似乎很棒（从第一眼看）。您可以下载所有标记数据并将其放入数据库（他们已经为此提供了工具）。

下一阶段是“重构”标记的实体，以便opennlp可以使用它（openNLP使用sth。像这样 Pierre Vinken ）

然后，您创建一些文本文件，并使用opennlp提供的培训工具进行培训。

不是100％确定这是否有效，但我会回来告诉你。