Tag: 短语

如何使用Lucene获取频繁出现的短语

我想在Lucene中找到一些经常出现的短语。 我从TXT文件中获取了一些信息,并且因为没有短语信息而丢失了很多上下文,例如“信息检索”被索引为两个单独的单词。 获取这样的短语的方法是什么? 我在互联网上找不到任何有用的东西,所有的建议,链接,提示特别是例子表示赞赏! 编辑:我只是按标题和内容存储我的文件: Document doc = new Document(); doc.add(new Field(“name”, f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field(“text”, fReader, Field.TermVector.WITH_POSITIONS_OFFSETS)); 因为我正在做的事情,最重要的是文件的内容。 标题往往不具有描述性(例如,我有许多PDF学术论文,其标题是代码或数字)。 我迫切需要从文本内容中索引最常出现的短语,刚才我看到这个简单的“词袋”方法效率不高。

使用Stanford Parser(CoreNLP)查找短语头

我将使用Stanford Corenlp 2013找到短语标题。 我看到了这个post 。 但是,答案对我来说并不清楚,我无法添加任何评论来继续该线程。 所以,我很抱歉重复。 我现在所拥有的是一个句子的解析树(使用Stanford Corenlp)(我也尝试过由Stanford Corenlp创建的CONLL格式)。 而我所需要的只是名词短语的头部。 我不知道如何使用依赖关系和解析树来提取名词短语的头部。 我所知道的是,如果我有nsubj (x, y) ,y就是主题的头部。 如果我有dobj(x,y) ,则y是直接对象的头部。 f我有iobj(x,y) ,y是间接对象的头部。 但是,我不确定这种方式是否是找到所有短语头的正确方法。 如果是,我应该添加哪些规则来获取所有名词短语? 也许,值得一提的是,我需要在java代码中使用名词短语的头部。