加载自定义NER模型Stanford CoreNLP

我用Stanford的“Stanford-NER”软件创建了我自己的NER模型，并遵循这些指示。

我知道CoreNLP按以下顺序加载了三个NER模型：

edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
edu/stanford/nlp/models/ner/english.muc.7class.distsim.crf.ser.gz
edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz

我现在想在上面的列表中包含我的NER模型，并首先使用我的NER模型标记文本。

我之前发现了两个关于这个主题的StackOverflow问题，它们是“Stanford OpenIE使用定制的NER模型”和“为什么Stanford CoreNLP NER-annotator默认加载3个模型？”

这两篇文章都有很好的答案。答案的一般信息是您必须编辑文件中的代码。

斯坦福OpenIE使用定制的NER模型

从这篇文章中它说要编辑corenlpserver.sh但我在Stanford CoreNLP下载的软件中找不到这个文件。有人能指出我这个文件的位置吗？

Stanford CoreNLP NER-annotator默认加载3个型号吗？

这篇文章说我可以使用-ner.model的参数来专门调用要加载的NER模型。我将此参数添加到初始服务器命令（ java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000 -ner.model *modlefilepathhere* ）。这不起作用，因为服务器仍然加载所有三个模型。

它还声明您必须更改一些Java代码，尽管它没有特别指出要进行更改的位置。

我是否需要修改或添加此代码props.put("ner.model", "model_path1,model_path2"); 到CoreNLP软件中的特定类文件？

问题：从我的研究中看来，我需要添加/修改一些代码来调用我独特的NER模型。上面概述了这些“编辑”，这些信息已从其他StackOverflow问题中提取出来。我需要编辑哪些文件？这些文件到底在哪里（即edu / Stanford / nlp / …等）？

编辑：我的系统在本地服务器上运行，我正在使用API pycorenlp打开到我的本地服务器的管道并发出请求。 python / pycorenlp代码的两个关键行是：

nlp = StanfordCoreNLP('http://localhost:9000')
output = nlp.annotate(evalList[line], properties={'annotators': 'ner, openie','outputFormat': 'json', 'openie.triple.strict':'True', 'openie.max_entailments_per_clause':'1'})

我认为这不会影响我调用我独特的NER模型的能力，但我想提供我能够获得最佳答案的所有情境数据。

如果要自定义服务器使用的管道，请创建一个名为server.properties的文件（或者您可以随意调用它）。

然后在使用java命令启动服务器-serverProperties server.properties时添加此选项。

在该.properties文件中，您应该包含ner.model = /path/to/custom_model.ser.gz

通常，您可以自定义服务器将在该.properties文件中使用的管道。例如，您还可以使用annotators = tokenize,ssplit,pos,lemma,ner,parse等设置其中的注释器列表…

更新以解决评论：

在您的java命令中，您不需要-ner.model /path/to/custom_model.ser.gz
.properties文件中可以包含无限量的属性设置，每行一个设置（空行被忽略，＃d d行也是如此）
运行Java命令时，它默认查找运行该命令的目录中的文件。因此，如果您的命令包含-serverProperties server.properties ，则它将假定文件server.properties位于运行命令的同一目录中。如果提供绝对路径而不是-serverProperties /path/to/server.properties ，则可以从任何位置运行该命令。
所以要明确你可以使用这个命令启动服务器（在包含所有jar的文件夹中运行）：

java -Xmx8g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000 -serverProperties server.properties

和server.properties应该是这样的文件：

 ner.model = /path/to/custom_model.ser.gz

server.properties可能如下所示：

 annotators = tokenize,ssplit,pos,lemma,ner,depparse ner.model = /path/to/custom_model.ser.gz parse.maxlen = 100

举个例子……你应该把所有设置都放到server.properties

我在前面的回答中提到了一些关于从Python访问StanfordCoreNLP服务器的评论：

不能通过终端使用pycorenlp for python3.5

您似乎正在使用我不太了解的pycorenlp库。另外两个选项是我在答案或我们制作的stanza包中显示的一些代码。以上答案中的详细信息。

加载自定义NER模型Stanford CoreNLP

如何在java / JDBC中取消postgres查询

Swing：鼠标hover时显示/隐藏按钮

java上的行为不一致==

JavaDoc可重用参数值

有人有Hibernate使用Elasticache作为其二级缓存吗？

将String拆分为String ，以便每个元素最多100个字符并以空格结尾

使用PDFBox从特定页面读取文本

可以在另一个查询的结果集上选择HQL吗？

Java：将int转换为InetAddress

java字符串文字可以被垃圾收集吗？如果是，如何certificate？

加载自定义NER模型Stanford CoreNLP

如何在java / JDBC中取消postgres查询

Swing：鼠标hover时显示/隐藏按钮

java上的行为不一致==

JavaDoc可重用参数值

有人有Hibernate使用Elasticache作为其二级缓存吗？

将String拆分为String ，以便每个元素最多100个字符并以空格结尾

使用PDFBox从特定页面读取文本

可以在另一个查询的结果集上选择HQL吗？

Java：将int转换为InetAddress

java字符串文字可以被垃圾收集吗？ 如果是，如何certificate？

java字符串文字可以被垃圾收集吗？如果是，如何certificate？