Tag: 全文索引

将Document添加到索引后忘记关闭Lucene IndexWriter

我有一个程序运行2天来为大约1.6亿个文本文件构建一个Lucene索引,在程序结束后,我尝试搜索索引并发现索引没有正确构建,indexReader.numDocs()返回0.我检查过索引目录,看起来不错,所有的索引数据似乎都在那里,目录的大小是1.5千兆字节。 我检查了我的代码,发现我忘了调用indexWriter.optimize()和indexWriter.close(),我想知道是否有可能重新优化()索引,所以我不需要重建整个索引从头开始? 我真的不希望该计划再花2天时间。

如何使用Lucene获取频繁出现的短语

我想在Lucene中找到一些经常出现的短语。 我从TXT文件中获取了一些信息,并且因为没有短语信息而丢失了很多上下文,例如“信息检索”被索引为两个单独的单词。 获取这样的短语的方法是什么? 我在互联网上找不到任何有用的东西,所有的建议,链接,提示特别是例子表示赞赏! 编辑:我只是按标题和内容存储我的文件: Document doc = new Document(); doc.add(new Field(“name”, f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field(“text”, fReader, Field.TermVector.WITH_POSITIONS_OFFSETS)); 因为我正在做的事情,最重要的是文件的内容。 标题往往不具有描述性(例如,我有许多PDF学术论文,其标题是代码或数字)。 我迫切需要从文本内容中索引最常出现的短语,刚才我看到这个简单的“词袋”方法效率不高。