有没有办法获取OpenNLP的“原始”文本数据?

我知道之前曾问过这个问题 – 但答案并不令人满意(从某种意义上说,答案只是一个链接)。

所以我的问题是,有没有办法扩展现有的openNLP模型? 我已经了解了DBPedia / Wikipedia的技术。 但是如果我只是想附加一些文字来改进模型呢?真的没有办法吗? (如果是这样 – 这真的很愚蠢……)

不幸的是,你做不到。 请参阅此问题 , 该问题详细解答了同一问题。

我认为,这是一个问题,因为当你处理文本时,你经常会遇到许可问题。 例如,您无法在Twitter数据上构建语料库并将其发布到社区(有关更多信息,请参阅此文章 )。

因此,公司通常会构建特定于域的语料库并在内部使用它们。 例如,我们在我们的研究项目中做过。 因此,我们构建了一个工具(Quick Pad Tagger)来有效地创建带注释的语料库(参见此处 )。

好吧,我认为这需要一个单独的答案。 我找到了Yago数据库: http ://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//

这个数据库似乎很棒(从第一眼看)。 您可以下载所有标记数据并将其放入数据库(他们已经为此提供了工具)。

下一阶段是“重构”标记的实体,以便opennlp可以使用它(openNLP使用sth。像这样 Pierre Vinken

然后,您创建一些文本文件,并使用opennlp提供的培训工具进行培训。

不是100%确定这是否有效,但我会回来告诉你。