Tag: 命名实体识别

在OpenNLP中培训命名实体: 我想为印度名字训练一个语料库： class NameTraining { public static void TrainNames() throws IOException { Charset charset = Charset.forName(“UTF-8”); FileReader fileReader = new FileReader(“train.txt”); ObjectStream fileStream = new PlainTextByLineStream(fileReader); ObjectStream sampleStream = new NameSampleDataStream(fileStream); TokenNameFinderModel model = NameFinderME.train(“pt-br”, “train”, sampleStream, Collections.emptyMap()); NameFinderME nfm = new NameFinderME(model); } public static void main(String args[]) throws IOException { NameTraining det = new […]

我如何在名称，数字，金钱，日期等内容中对文字进行分类？: 我在一周前做了一些关于文本挖掘的问题，但我有点困惑，但现在我知道我想做什么。情况：我有很多带有HTML内容的下载页面。例如，其中一些可以是来自博客的文本。它们不是结构化的，来自不同的网站。我想做什么：我将用空白分割所有单词，我想在一些预先定义的内容中对每个单词或一组单词进行分类，如姓名，号码，电话，电子邮件，url，日期，金钱，温度等。我所知道的：我知道有关自然语言处理，命名实体重新接收器，POSTagging，NayveBayesian，HMM，培训和许多要做分类的事情的概念/听说过，但是有一些不同的NLP库有不同的分类器和这样做的方法，我不知道有什么用途或做什么。我需要什么：我需要一些来自分类器，NLP的代码示例，无论如何，它可以对文本中的每个单词进行分类，而不是整个文本。像这样的东西： //This is pseudo-code for what I want, and not a implementation classifier.trainFromFile(“file-with-train-words.txt”); words = text.split(” “); for(String word: words){ classifiedWord = classifier.classify(word); System.out.println(classifiedWord.getType()); } 有人可以帮帮我吗？我对各种API，分类器和算法感到困惑。

显示斯坦福NER的置信度: 我正在使用斯坦福NER CRFC分类器从新闻文章中提取命名实体，为了实现主动学习，我想知道每个标记实体的类的置信度分数。显示的例子：位置（0.20）人（0.10）组织（0.60）MISC（0.10）这是我从文本中提取命名实体的代码： AbstractSequenceClassifier classifier = CRFClassifier.getClassifierNoExceptions(classifier_path); String annnotatedText = classifier.classifyWithInlineXML(text); 是否有解决方法来获取值和注释？

我如何在OpenNLP中训练命名实体识别器标识符？: 好的，我有以下代码来训练OpenNLP的NER标识符 FileReader fileReader = new FileReader(“train.txt”); ObjectStream fileStream = new PlainTextByLineStream(fileReader); ObjectStream sampleStream = new NameSampleDataStream(fileStream); TokenNameFinderModel model = NameFinderME.train(“pt-br”, “train”, sampleStream, Collections.emptyMap()); nfm = new NameFinderME(model); 我不知道如果缺少某些东西我是否做错了，但分类不起作用。我假设train.txt错了。发生的错误是所有令牌都只分类为一种类型。我的train.txt数据类似于以下示例，但有更多的条目变化和数量。另一件事是我每次都是从文本中逐字逐句地分类，而不是所有的标记。 8000m 100ºC 50kg Renato 有人可以certificate我做错了吗？

Java命名实体识别库: 我正在为java寻找一个简单但“足够好”的命名实体识别库（和字典），我希望处理电子邮件和文档并提取一些“基本信息”，如：名称，地点，地址和日期我一直在四处寻找，而且大多数似乎都处于沉重的一面和完整的NLP项目中。有什么建议？

如何在OpenNLP中创建一个好的NER培训模型？: 我刚开始使用OpenNLP。我需要创建一个简单的训练模型来识别名称实体。在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型： Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . Vinken is chairman of Elsevier NV , the Dutch publishing group . Rudolph Agnew , 55 years old and former chairman of Consolidated Gold Fields PLC , was named a director of […]