Tag: nlp

使用java，nlp的Pharse级别依赖解析器: 有人可以使用Stanfords的自然语言处理Lexical Parser-开源Java代码详细说明如何获得“使用图解级别依赖”吗？ http://svn.apache.org/repos/asf/nutch/branches/branch-1.2/src/plugin/lib-http/src/java/org/apache/nutch/protocol/http/api/RobotRulesParser.java http://docs.mongodb.org/manual/reference/sql-comparison/ 如分析依赖事故———>发生了坠落———> as 夜晚———->堕落像更多…… 谢谢！

在字典上的部分匹配: 我正在使用GATE（基于Java的NLP框架），并希望找到与字典部分匹配的单词。例如，我有一个疾病词典，其中包含以下术语 Congestive cardiac failure Congestive Heart Failure Colon Cancer . . . Thousands of more terms 让我们假设我有一个字符串”Father had cardiac failure last year” ，我希望将“心力衰竭”识别为部分匹配，因为它是字典中术语的一部分。我在Python，JS和C＃中看到了关于类似主题的一些讨论，但我不确定在这种情况下可以提供哪些帮助。我想知道我是否可以在这里使用Aho-Corrasick。

Java文本输出中的UTF-8编码问题: 我一直在为高棉版Unicode破解者测试各种解决方案（高棉语之间没有空格，这使得拼写检查和语法检查变得困难，以及从传统的高棉语转换为高棉语Unicode）。我得到了一些现在在线的源代码（ http://www.whitemagicsoftware.com/software/java/wordsplit/ ）似乎很有希望。作者非常友好地提供了消息来源，但他正忙着写一本书并且无法排除故障。我正在以非常小的规模测试代码，我遇到了输出问题。这是输入： ជាដែលនឹងបានមាន 这是结果输出： ជារ លនឹងមានមាន，ជារ លនឹងបានមាន 这些单词实际上是正确分割的，但有一个单词是混乱的。输出应如下所示： ជាដែលនឹងបានមាន，ជាដែលនឹងបានមាន 有没有人知道为什么输出会出现乱码？这是一个非常小的高棉语词典和分词的代码： http ： //www.sbbic.org/khmerwordsplit.zip 以下是如何运行它： java -jar wordsplit.jar khmerlexicon.csv khmercolumns.txt >> results.txt 到目前为止，我非常感谢stackoverflow社区为您提供的所有帮助 – 我希望很快找到解决方案！

在Weka中使用StringToWordVector和内部数据结构: 我正在尝试使用Weka获取文档聚类。这个过程是一个更大的管道的一部分，我真的不能写出arff文件。我将每个文档中的所有文档和单词包都作为Map<String, Multiset>结构，其中键是文档名称， Multiset值是文档中单词的包。我有两个问题，真的：（1）目前的方法最终聚集了术语，而不是文件： public final Instances buildDocumentInstances(TreeMap<String, Multiset> docToTermsMap, String encoding) throws IOException { int dimension = TermToDocumentFrequencyMap.navigableKeySet().size(); FastVector attributes = new FastVector(dimension); for (String s : TermToDocumentFrequencyMap.navigableKeySet()) attributes.addElement(new Attribute(s)); List instances = Lists.newArrayList(); for (Map.Entry<String, Multiset> entry : docToTermsMap.entrySet()) { Instance instance = new Instance(dimension); for (Multiset.Entry ms_entry : […]

Java中的自动语义角色标记（ASRL）（在Java中使用Frame net）: 我正在寻找用Java创建ASRL分析的很长时间，不幸的是网络提供的支持很少，似乎所有其他SO问题都与“使用哪些工具”有关，而不是“如何使用它们” ”。我想创建（最好是在java中）完全像这样的东西： http ： //demo.ark.cs.cmu.edu/parse ，一种将句子作为输入，帧作为输出的算法。我下载了mate tools的相关Jar文件https://code.google.com/p/mate-tools/downloads/list和SEMAFOR http://www.ark.cs.cmu.edu/SEMAFOR/ ，但是从这里开始我被卡住了，我找不到任何创建java代码的方法。你们有没有人有Java代码（ SEMAFOR或Mate tools ）的例子来演示如何将句子（或任何文本输入）转换成框架元素？我很感激任何帮助。

使用Java命名实体识别: 我想使用命名实体识别（NER）来为数据库中的文本找到足够的标签。我没有使用像NLTK或Lingpipe这样的工具，而是想构建自己的工具。所以我的问题是：我应该使用哪种算法？构建这个工具有多难？

Mallet主题建模: 我一直在使用mallet来推断包含100,000行（大约34 MB的mallet格式）的文本文件的主题。但现在我需要在包含一百万行（大约180MB）的文件上运行它，我得到一个java.lang.outofmemoryexception。有没有办法将文件拆分成较小的文件并为所有文件中存在的数据构建模型？提前致谢

用java简单的情感分析: 我对Sentiment分析很新。如何判断给定的单词或句子是正面还是负面。我必须用java实现它。我试着阅读像lingpipe，rapidminer教程这样的东西，但我不明白。在他们的例子中，他们使用了大量数据。就我而言，我没有太多数据。我要说的只是一个单词或一个句子。我也尝试从stackoverflow中读取问题。但他们对我帮助不大。提前致谢。