Tag: nlp

如何判断写入的纯文本文件是什么语言？: 假设我们有一个内容文本文件：“Je suis un beau homme ……” 另一个：“我是一个勇敢的人” 第三个用德语发表文字：“Guten morgen。Wie geht’s？” 我们如何编写一个告诉我们的函数：第一个文件中的文本是英文的，第二个文件是英文等等？欢迎链接到书籍/开箱即用的解决方案。我用Java编写，但如果需要我可以学习Python。我的评论我需要添加一个小评论。该文本可能包含不同语言的短语，作为整体的一部分或由于错误的结果。在经典文学中，我们有很多例子，因为贵族成员是多语言的。因此，概率更好地描述了情况，因为文本的大多数部分是用一种语言编写的，而其他部分可能用另一种语言编写。 Google API – 互联网连接。我不想使用远程function/服务，因为我需要自己做或使用可下载的库。我想就这个话题进行研究。

通过传递String而不是字符串数组来解析Stanford Parser: 是否可以通过传递字符串而不是字符串数组来解析使用Stanford Parser的句子。这是他们在简短教程中给出的示例（参见文档）：这是一个例子： import java.util.*; import edu.stanford.nlp.ling.*; import edu.stanford.nlp.trees.*; import edu.stanford.nlp.parser.lexparser.LexicalizedParser; class ParserDemo { public static void main(String[] args) { LexicalizedParser lp = LexicalizedParser.loadModel(“edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz”); lp.setOptionFlags(new String[]{“-maxLength”, “80”, “-retainTmpSubcategories”}); String[] sent = { “This”, “is”, “an”, “easy”, “sentence”, “.” }; // This is the sentence to be parsed List rawWords = Sentence.toCoreLabelList(sent); Tree […]

在JAVA中使用哪个NLP工具包？: 我正在开展一个项目，该项目包括一个连接到NCBI（国家生物技术信息中心）的网站，并在那里搜索文章。事情是我必须对所有结果进行一些文本挖掘。我正在使用JAVA语言进行文本化，使用IAXFACES进行AJAX用于开发网站。我有什么：从搜索返回的文章列表。每篇文章都有一个ID和一个摘要。我们的想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字，找出最重复的关键词。然后在网站上显示搜索的相关字词。有任何想法吗？我在网上搜索了很多，我知道有名称实体识别，部分语音标记，有基因和蛋白质的NER GENIA词库，我已经尝试过阻止…停止单词列表等…我只需要知道最好的aproahc来解决这个问题。非常感谢。

指定的初始和最大堆大小不兼容: 当我运行一个有NLP库的java类时，我得到了这个错误…. Error occurred during initialization of VM Incompatible initial and maximum heap sizes specified 任何想法我怎么能解决这个错误:)

Java的简单自然语言处理启动: 我愿意开始开发NLP项目。我不太了解可用的工具。谷歌搜索大约一个月后。我意识到openNLP可以成为我的解决方案。不幸的是，我没有看到任何关于使用API的完整教程。所有这些都缺乏一些一般性步骤。我需要从地面开始的教程。我在网站上看到了很多下载，但不知道如何使用它们？我需要训练什么吗？这是我想知道的 – 如何安装/设置一个nlp系统，它可以 – 解析英语句子识别不同的词性

句子之间的语义相似度: 我正在做project.i需要任何开源工具或技术来找到句子之间的语义相似性，我把输入作为两个句子输出作为分数（即语义相似性）。任何人都知道这个信息。我希望我会得到答复很快。谢谢大家。

Java文本分类问题: 我有一组Books对象，类Book定义如下： Class Book{ String title; ArrayList taglist; } 标题是书的标题，例如： Javascript for dummies 。和taglist是我们示例的标签列表： Javascript，jquery，“web dev”，.. 正如我所说，有一套书谈论不同的东西：IT，生物，历史……每本书都有一个标题和一组描述它的标签。我必须按主题将这些书自动分类为分开的集合，例如： IT书籍： Java for dummies Javascript for dummies 在30天内学习闪光灯 C ++编程历史书：世界大战美国在1960年马丁路德金的一生生物学书籍： …. 你们知道一种分类算法/方法来申请这类问题吗？解决方案是使用外部API来定义文本的类别，但问题在于书籍使用不同的语言：法语，西class牙语，英语。

stanford core nlp java输出: 我是Java和Stanford NLP工具包的新手，并尝试将它们用于项目。具体来说，我正在尝试使用Stanford Corenlp工具包来注释文本（使用Netbeans而不是命令行），我尝试使用http://nlp.stanford.edu/software/corenlp.shtml#Usage上提供的代码（使用Stanford CoreNLP API）..问题是：有人能告诉我如何在文件中获取输出以便我可以进一步处理它吗？我已经尝试将图形和句子打印到控制台，只是为了查看内容。这样可行。基本上我需要的是返回带注释的文档，这样我就可以从我的主类中调用它并输出一个文本文件（如果可能的话）。我正在尝试查看stanford corenlp的API，但由于缺乏经验，我不知道返回此类信息的最佳方法是什么。这是代码： Properties props = new Properties(); props.put(“annotators”, “tokenize, ssplit, pos, lemma, ner, parse, dcoref”); StanfordCoreNLP pipeline = new StanfordCoreNLP(props); // read some text in the text variable String text = “the quick fox jumps over the lazy dog”; // create an empty Annotation just […]

Java命名实体识别库: 我正在为java寻找一个简单但“足够好”的命名实体识别库（和字典），我希望处理电子邮件和文档并提取一些“基本信息”，如：名称，地点，地址和日期我一直在四处寻找，而且大多数似乎都处于沉重的一面和完整的NLP项目中。有什么建议？

如何在OpenNLP中创建一个好的NER培训模型？: 我刚开始使用OpenNLP。我需要创建一个简单的训练模型来识别名称实体。在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind我看到这个简单的文本来训练模型： Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 . Mr . Vinken is chairman of Elsevier NV , the Dutch publishing group . Rudolph Agnew , 55 years old and former chairman of Consolidated Gold Fields PLC , was named a director of […]