Tag: 命名实体识别

在OpenNLP中培训命名实体

我想为印度名字训练一个语料库: class NameTraining { public static void TrainNames() throws IOException { Charset charset = Charset.forName(“UTF-8”); FileReader fileReader = new FileReader(“train.txt”); ObjectStream fileStream = new PlainTextByLineStream(fileReader); ObjectStream sampleStream = new NameSampleDataStream(fileStream); TokenNameFinderModel model = NameFinderME.train(“pt-br”, “train”, sampleStream, Collections.emptyMap()); NameFinderME nfm = new NameFinderME(model); } public static void main(String args[]) throws IOException { NameTraining det = new […]

我如何在名称,数字,金钱,日期等内容中对文字进行分类?

我在一周前做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做什么。 情况:我有很多带有HTML内容的下载页面。 例如,其中一些可以是来自博客的文本。 它们不是结构化的,来自不同的网站。 我想做什么:我将用空白分割所有单词,我想在一些预先定义的内容中对每个单词或一组单词进行分类,如姓名,号码,电话,电子邮件,url,日期,金钱,温度等。 我所知道的:我知道有关自然语言处理,命名实体重新接收器,POSTagging,NayveBayesian,HMM,培训和许多要做分类的事情的概念/听说过,但是有一些不同的NLP库有不同的分类器和这样做的方法,我不知道有什么用途或做什么。 我需要什么:我需要一些来自分类器,NLP的代码示例,无论如何,它可以对文本中的每个单词进行分类,而不是整个文本。 像这样的东西: //This is pseudo-code for what I want, and not a implementation classifier.trainFromFile(“file-with-train-words.txt”); words = text.split(” “); for(String word: words){ classifiedWord = classifier.classify(word); System.out.println(classifiedWord.getType()); } 有人可以帮帮我吗? 我对各种API,分类器和算法感到困惑。

显示斯坦福NER的置信度

我正在使用斯坦福NER CRFC分类器从新闻文章中提取命名实体,为了实现主动学习,我想知道每个标记实体的类的置信度分数。 显示的例子: 位置(0.20)人(0.10)组织(0.60)MISC(0.10) 这是我从文本中提取命名实体的代码: AbstractSequenceClassifier classifier = CRFClassifier.getClassifierNoExceptions(classifier_path); String annnotatedText = classifier.classifyWithInlineXML(text); 是否有解决方法来获取值和注释?

我如何在OpenNLP中训练命名实体识别器标识符?

好的,我有以下代码来训练OpenNLP的NER标识符 FileReader fileReader = new FileReader(“train.txt”); ObjectStream fileStream = new PlainTextByLineStream(fileReader); ObjectStream sampleStream = new NameSampleDataStream(fileStream); TokenNameFinderModel model = NameFinderME.train(“pt-br”, “train”, sampleStream, Collections.emptyMap()); nfm = new NameFinderME(model); 我不知道如果缺少某些东西我是否做错了,但分类不起作用。 我假设train.txt错了。 发生的错误是所有令牌都只分类为一种类型。 我的train.txt数据类似于以下示例,但有更多的条目变化和数量。 另一件事是我每次都是从文本中逐字逐句地分类,而不是所有的标记。 8000m 100ºC 50kg Renato 有人可以certificate我做错了吗?

Java命名实体识别库

我正在为java寻找一个简单但“足够好”的命名实体识别库(和字典),我希望处理电子邮件和文档并提取一些“基本信息”,如:名称,地点,地址和日期 我一直在四处寻找,而且大多数似乎都处于沉重的一面和完整的NLP项目中。 有什么建议?

如何在OpenNLP中创建一个好的NER培训模型?

我刚开始使用OpenNLP。 我需要创建一个简单的训练模型来识别名称实体。 在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型: Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . Vinken is chairman of Elsevier NV , the Dutch publishing group . Rudolph Agnew , 55 years old and former chairman of Consolidated Gold Fields PLC , was named a director of […]