Tag: nlp

如何判断写入的纯文本文件是什么语言?

假设我们有一个内容文本文件:“Je suis un beau homme ……” 另一个:“我是一个勇敢的人” 第三个用德语发表文字:“Guten morgen。Wie geht’s?” 我们如何编写一个告诉我们的函数:第一个文件中的文本是英文的,第二个文件是英文等等? 欢迎链接到书籍/开箱即用的解决方案。 我用Java编写,但如果需要我可以学习Python。 我的评论 我需要添加一个小评论。 该文本可能包含不同语言的短语,作为整体的一部分或由于错误的结果。 在经典文学中,我们有很多例子,因为贵族成员是多语言的。 因此,概率更好地描述了情况,因为文本的大多数部分是用一种语言编写的,而其他部分可能用另一种语言编写。 Google API – 互联网连接。 我不想使用远程function/服务,因为我需要自己做或使用可下载的库。 我想就这个话题进行研究。

通过传递String而不是字符串数组来解析Stanford Parser

是否可以通过传递字符串而不是字符串数组来解析使用Stanford Parser的句子。 这是他们在简短教程中给出的示例( 参见文档 ): 这是一个例子: import java.util.*; import edu.stanford.nlp.ling.*; import edu.stanford.nlp.trees.*; import edu.stanford.nlp.parser.lexparser.LexicalizedParser; class ParserDemo { public static void main(String[] args) { LexicalizedParser lp = LexicalizedParser.loadModel(“edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz”); lp.setOptionFlags(new String[]{“-maxLength”, “80”, “-retainTmpSubcategories”}); String[] sent = { “This”, “is”, “an”, “easy”, “sentence”, “.” }; // This is the sentence to be parsed List rawWords = Sentence.toCoreLabelList(sent); Tree […]

在JAVA中使用哪个NLP工具包?

我正在开展一个项目,该项目包括一个连接到NCBI(国家生物技术信息中心)的网站,并在那里搜索文章。 事情是我必须对所有结果进行一些文本挖掘。 我正在使用JAVA语言进行文本化,使用IAXFACES进行AJAX用于开发网站。 我有什么:从搜索返回的文章列表。 每篇文章都有一个ID和一个摘要。 我们的想法是从每个抽象文本中获取关键字。 然后比较所有摘要中的所有关键字,找出最重复的关键词。 然后在网站上显示搜索的相关字词。 有任何想法吗 ? 我在网上搜索了很多,我知道有名称实体识别,部分语音标记,有基因和蛋白质的NER GENIA词库,我已经尝试过阻止…停止单词列表等…我只需要知道最好的aproahc来解决这个问题。 非常感谢。

指定的初始和最大堆大小不兼容

当我运行一个有NLP库的java类时,我得到了这个错误…. Error occurred during initialization of VM Incompatible initial and maximum heap sizes specified 任何想法我怎么能解决这个错误:)

Java的简单自然语言处理启动

我愿意开始开发NLP项目。 我不太了解可用的工具。 谷歌搜索大约一个月后。 我意识到openNLP可以成为我的解决方案。 不幸的是,我没有看到任何关于使用API​​的完整教程。 所有这些都缺乏一些一般性步骤。 我需要从地面开始的教程。 我在网站上看到了很多下载,但不知道如何使用它们? 我需要训练什么吗?这是我想知道的 – 如何安装/设置一个nlp系统,它可以 – 解析英语句子 识别不同的词性

句子之间的语义相似度

我正在做project.i需要任何开源工具或技术来找到句子之间的语义相似性,我把输入作为两个句子输出作为分数(即语义相似性)。任何人都知道这个信息。我希望我会得到答复很快。谢谢大家。

Java文本分类问题

我有一组Books对象,类Book定义如下: Class Book{ String title; ArrayList taglist; } 标题是书的标题,例如: Javascript for dummies 。 和taglist是我们示例的标签列表: Javascript,jquery,“web dev”,.. 正如我所说,有一套书谈论不同的东西:IT,生物,历史……每本书都有一个标题和一组描述它的标签。 我必须按主题将这些书自动分类为分开的集合,例如: IT书籍: Java for dummies Javascript for dummies 在30天内学习闪光灯 C ++编程 历史书: 世界大战 美国在1960年 马丁路德金的一生 生物学书籍: …. 你们知道一种分类算法/方法来申请这类问题吗? 解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西class牙语,英语。

stanford core nlp java输出

我是Java和Stanford NLP工具包的新手,并尝试将它们用于项目。 具体来说,我正在尝试使用Stanford Corenlp工具包来注释文本(使用Netbeans而不是命令行),我尝试使用http://nlp.stanford.edu/software/corenlp.shtml#Usage上提供的代码(使用Stanford CoreNLP API)..问题是:有人能告诉我如何在文件中获取输出以便我可以进一步处理它吗? 我已经尝试将图形和句子打印到控制台,只是为了查看内容。 这样可行。 基本上我需要的是返回带注释的文档,这样我就可以从我的主类中调用它并输出一个文本文件(如果可能的话)。 我正在尝试查看stanford corenlp的API,但由于缺乏经验,我不知道返回此类信息的最佳方法是什么。 这是代码: Properties props = new Properties(); props.put(“annotators”, “tokenize, ssplit, pos, lemma, ner, parse, dcoref”); StanfordCoreNLP pipeline = new StanfordCoreNLP(props); // read some text in the text variable String text = “the quick fox jumps over the lazy dog”; // create an empty Annotation just […]

Java命名实体识别库

我正在为java寻找一个简单但“足够好”的命名实体识别库(和字典),我希望处理电子邮件和文档并提取一些“基本信息”,如:名称,地点,地址和日期 我一直在四处寻找,而且大多数似乎都处于沉重的一面和完整的NLP项目中。 有什么建议?

如何在OpenNLP中创建一个好的NER培训模型?

我刚开始使用OpenNLP。 我需要创建一个简单的训练模型来识别名称实体。 在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型: Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . Vinken is chairman of Elsevier NV , the Dutch publishing group . Rudolph Agnew , 55 years old and former chairman of Consolidated Gold Fields PLC , was named a director of […]