Tag: nlp

自然语言处理:用英语查找猥亵?

鉴于一组单词标记为词性,我想找到那些在主流英语中猥亵的词。 我怎么能这样做? 我应该制作一个巨大的列表,并检查列表中是否存在任何内容? 我是否应该尝试使用正则表达式捕获单个根上的一堆变体? 如果它更容易,我不想过滤掉,只是为了得到一个计数。 因此,如果有一些误报,那就不是世界末日,只要有一个或多或少均匀过度夸大的利率。

在java中停止单词和词干分析器

我正在考虑在我的相似程序中加上一个停用词,然后是一个词干分析器(对于搬运工1或2来说取决于最容易实现的) 我想知道,因为我从文件中读取我的文本作为整行并将它们保存为长字符串,所以如果我有两个字符串ex。 String one = “I decided buy something from the shop.”; String two = “Nevertheless I decidedly bought something from a shop.”; 现在我得到了那些字符串 词干:我可以直接在它上面使用词干分析器算法,将它保存为字符串然后继续处理相似性,就像在程序中实现词干分析器之前一样,就像运行one.stem(); 之类的事情? 停止说:这是如何解决的? 我只是用; one.replaceall(“我”,“”); 或者是否有一些特定的方法用于此过程? 我想继续使用字符串并获取字符串,然后在其上使用相似性算法来获得相似性。 Wiki没有说太多。 希望你能帮助我! 谢谢。 编辑:这是一个与学校相关的项目,我正在写一篇关于不同算法之间相似性的论文,所以我认为我不允许使用lucene或其他为我工作的库。 另外,在开始使用像Lucene和co这样的库之前,我想尝试理解它是如何工作的。 希望这不是太麻烦^^

在没有GUI的情况下从Java程序内部运行GATE管道。 用gate构建一个tomcat应用程序

我已经为GATE构建了一些插件组件,并结合ANNIE工具,在GATE平台上运行管道。 有谁知道如何从控制台运行管道? 我想在Tomcat中构建一个Web应用程序,它将从网页中获取纯文本,将其传递给我构建的GATE管道并执行某些操作。 所以我需要在一个简单的Java文件中运行GATE,怎么做呢? 提前谢谢,抱歉我的语法很差

Java中的自然语言处理(NLP)

可能重复: Java:有一个很好的自然语言处理库 任何人都能告诉我有关Java中NLP的库吗? 如果被正确记录,那真的很好。 我曾尝试使用lingpipe,但我无法完全理解它。

如何分析简单的英语句子

是否有任何库可用于分析(nlp)简单的英文文本。 例如,如果能够做到这一点,它将是完美的; 输入:“我要去”输出:我,去,呈现连续时态

如何确定Oracle中给定字符串的语言(英文,中文…)?

如何确定Oracle(多语言环境)中给定sting(表列值)的语言(英语,中文…)?

维基百科的解析器

我下载了一个维基百科转储,我想将维基格式转换为我的对象格式。 是否有可用的wiki解析器将对象转换为XML?

如何为stanford tagger创建自己的训练语料库?

我必须用很多简短的手和当地的术语来分析非正式的英文文本。 因此我在考虑为stanford标记创建模型。 如何为斯坦福标记器创建我自己的标记语料库集? 语料库的语法是什么,我的语料库应该多长时间才能达到理想的性能?

从文本中提取名词(Java)

有没有人知道从文本正文中提取名词的最简单方法? 我听说过TreeTagger工具 ,我试过试一试 ,但由于某些原因无法让它工作。 有什么建议么? 谢谢菲尔 编辑: import org.annolab.tt4j。*; TreeTaggerWrapper tt = new TreeTaggerWrapper(); 试试{tt.setModel(“/ Nouns / english.par”); tt.setHandler(new TokenHandler(){void token(String token,String pos,String lemma){System.out.println(token +“\ t”+ pos +“\ t”+ lemma);}}); tt.process(字); // words =单词列表} finally {tt.destroy(); } 那是我的代码,英语是语言。 我收到错误:新类型TokenHandler(){}必须实现inheritance的抽象方法TokenHandler.token。 难道我做错了什么?

你如何找到句子的主语?

我是NLP的新手,正在研究我应该使用什么语言工具包来执行以下操作。 我想做两件事之一,完成同样的事情: 我基本上想要分类一个文本,通常是一个包含15个单词的句子。 想判断句子是否在谈论特定主题。 是否有一个给出句子的工具,它找出句子的主语。 我使用的是PHP和Java,但该工具可以是在Linux命令行上运行的任何东西 非常感谢你。