Tag: 短语

如何使用Lucene获取频繁出现的短语: 我想在Lucene中找到一些经常出现的短语。我从TXT文件中获取了一些信息，并且因为没有短语信息而丢失了很多上下文，例如“信息检索”被索引为两个单独的单词。获取这样的短语的方法是什么？我在互联网上找不到任何有用的东西，所有的建议，链接，提示特别是例子表示赞赏！编辑：我只是按标题和内容存储我的文件： Document doc = new Document(); doc.add(new Field(“name”, f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field(“text”, fReader, Field.TermVector.WITH_POSITIONS_OFFSETS)); 因为我正在做的事情，最重要的是文件的内容。标题往往不具有描述性（例如，我有许多PDF学术论文，其标题是代码或数字）。我迫切需要从文本内容中索引最常出现的短语，刚才我看到这个简单的“词袋”方法效率不高。

使用Stanford Parser（CoreNLP）查找短语头: 我将使用Stanford Corenlp 2013找到短语标题。我看到了这个post 。但是，答案对我来说并不清楚，我无法添加任何评论来继续该线程。所以，我很抱歉重复。我现在所拥有的是一个句子的解析树（使用Stanford Corenlp）（我也尝试过由Stanford Corenlp创建的CONLL格式）。而我所需要的只是名词短语的头部。我不知道如何使用依赖关系和解析树来提取名词短语的头部。我所知道的是，如果我有nsubj (x, y) ，y就是主题的头部。如果我有dobj(x,y) ，则y是直接对象的头部。 f我有iobj(x,y) ，y是间接对象的头部。但是，我不确定这种方式是否是找到所有短语头的正确方法。如果是，我应该添加哪些规则来获取所有名词短语？也许，值得一提的是，我需要在java代码中使用名词短语的头部。