Tag: nlp

如何判断句子是否是一个问题(疑问句)?

是否有一个开源Java库/算法用于查找特定文本是否是一个问题? 我正在研究一个问题回答系统,需要分析用户输入的文本是否是一个问题。 我认为问题可以通过使用开源NLP库来解决,但它显然比简单的词性标记更复杂。 因此,如果有人可以通过使用现有的开源NLP库来告诉算法,那也不错。 如果您知道使用数据挖掘来解决此问题的库/工具包,请告诉我。 虽然很难获得足够的数据用于培训目的,但我将能够使用堆栈交换数据进行培训。

Stanford Core NLP – 了解共同参与解决方案

我在理解上一版斯坦福NLP工具中对coref解析器所做的更改时遇到了一些麻烦。 作为示例,下面是一个句子和相应的CorefChainAnnotation: The atom is a basic unit of matter, it consists of a dense central nucleus surrounded by a cloud of negatively charged electrons. {1=[1 1, 1 2], 5=[1 3], 7=[1 4], 9=[1 5]} 我不确定我理解这些数字的含义。 查看源代码也没有任何帮助。 谢谢

如何“更新”现有的命名实体识别模型 – 而不是从头开始创建?

请参阅OpenNLP的教程步骤 – 命名实体识别: 链接到教程我使用此处的“en-ner-person.bin”模型在本教程中,有关于培训和创建新模型的说明。 有没有办法用额外的训练数据“更新”现有的“en-ner-person.bin”? 假设我有一个500个额外人名的列表,否则不会被识别为人 – 我如何生成新模型?

如何使用Open nlp的分块解析器提取名词短语

我是自然语言处理的新手。我需要从文本中提取名词短语。到目前为止,我已经使用open nlp的分块解析器来解析我的文本以获得树结构。但是我无法从中提取名词短语。树结构,在打开的nlp中是否有任何正则表达式模式,以便我可以用它来提取名词短语。 下面是我正在使用的代码 InputStream is = new FileInputStream(“en-parser-chunking.bin”); ParserModel model = new ParserModel(is); Parser parser = ParserFactory.create(model); Parse topParses[] = ParserTool.parseLine(line, parser, 1); for (Parse p : topParses){ p.show();} 在这里,我得到的输出为 (TOP(S(S(ADJP(JJ欢迎)(PP(TO to)(NP(NNP Big)(NNP Data。)))))(S(NP(PRP We))(VP(VP(VBP)) (VP(VBG工作)(PP(IN)(NP(NNP自然)(NNP语言)(NNP Processing.can)))))(NP(DT some)(CD one)(NN帮助))(NP( PRP us))(PP(IN in)(S(VP(VBG提取)(NP(DT)(NN名词)(NNS短语))(PP(IN))(NP(DT))(NN树)( WP结构。)))))))))) 有人可以帮助我获取像NP,NNP,NN等名词短语。可以告诉我,我是否需要使用任何其他NP Chunker来获取名词短语?是否有任何正则表达式模式来实现相同的目的。 请帮帮我。 提前致谢 Gouse。

使用Stanford Parser(CoreNLP)查找短语头

我将使用Stanford Corenlp 2013找到短语标题。 我看到了这个post 。 但是,答案对我来说并不清楚,我无法添加任何评论来继续该线程。 所以,我很抱歉重复。 我现在所拥有的是一个句子的解析树(使用Stanford Corenlp)(我也尝试过由Stanford Corenlp创建的CONLL格式)。 而我所需要的只是名词短语的头部。 我不知道如何使用依赖关系和解析树来提取名词短语的头部。 我所知道的是,如果我有nsubj (x, y) ,y就是主题的头部。 如果我有dobj(x,y) ,则y是直接对象的头部。 f我有iobj(x,y) ,y是间接对象的头部。 但是,我不确定这种方式是否是找到所有短语头的正确方法。 如果是,我应该添加哪些规则来获取所有名词短语? 也许,值得一提的是,我需要在java代码中使用名词短语的头部。

用于从输入文本中提取关键字的Java库

我正在寻找一个Java库来从一个文本块中提取关键字。 该过程应如下: 停止单词清理 – >词干 – >根据英语语言学统计信息搜索关键词 – 意味着如果一个单词在文本中出现的次数多于在英语中出现的概率而不是关键词候选词。 是否有执行此任务的库?

文本简化工具(Java)

使用Java进行文本简化的最佳工具是什么? 以下是文本简化的示例: John, who was the CEO of a company, played golf. ↓ John played golf. John was the CEO of a company.

java的自然语言日期和时间解析器

我正在研究一个自然语言解析器,它用英语检查一个句子,并提取一些信息,如姓名,日期等。 例如:“ 让我们下周二下午5点在海滩见面。 ” 所以输出将是这样的:“ 让我们在海滩的1700小时见到2009年9月15日 ” 基本上,我想知道的是, JAVA是否有任何框架或库可用于执行这些操作,例如从句子中解析日期并提供具有某种指定格式的输出。 此致,Pranav 谢谢你的回复。 我看过几个像LingPipe ,OpenPL, Stanford NLP这样的NLP 。 我想问他们为java的日期解析做了什么。

Java中的语言识别

是否有任何语言识别开源Java? 仅适用于c / c ++。 UPD: 我在谈论人类文本语言。 例: 输入:我叫约翰。 输出:英文。 输入:Ich heisse John。 输出:德语。 输入:МенязовутДжон。 产出:俄罗斯。

什么是用于词性标注的优秀Java库?

我正在寻找一个优秀的Java开源POS Tagger 。 这是我到目前为止所提出的。 LingPipe 斯坦福 LBJ FastTag 有人有什么建议吗?