Tag: 全文索引

将Document添加到索引后忘记关闭Lucene IndexWriter: 我有一个程序运行2天来为大约1.6亿个文本文件构建一个Lucene索引，在程序结束后，我尝试搜索索引并发现索引没有正确构建，indexReader.numDocs（）返回0.我检查过索引目录，看起来不错，所有的索引数据似乎都在那里，目录的大小是1.5千兆字节。我检查了我的代码，发现我忘了调用indexWriter.optimize（）和indexWriter.close（），我想知道是否有可能重新优化（）索引，所以我不需要重建整个索引从头开始？我真的不希望该计划再花2天时间。

如何使用Lucene获取频繁出现的短语: 我想在Lucene中找到一些经常出现的短语。我从TXT文件中获取了一些信息，并且因为没有短语信息而丢失了很多上下文，例如“信息检索”被索引为两个单独的单词。获取这样的短语的方法是什么？我在互联网上找不到任何有用的东西，所有的建议，链接，提示特别是例子表示赞赏！编辑：我只是按标题和内容存储我的文件： Document doc = new Document(); doc.add(new Field(“name”, f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field(“text”, fReader, Field.TermVector.WITH_POSITIONS_OFFSETS)); 因为我正在做的事情，最重要的是文件的内容。标题往往不具有描述性（例如，我有许多PDF学术论文，其标题是代码或数字）。我迫切需要从文本内容中索引最常出现的短语，刚才我看到这个简单的“词袋”方法效率不高。

Interesting Posts

如何在Java中创建随机BigDecimal？

Android AccountManager.getUserData（）返回null

Java日期和夏令时

细化一条线

中止Tomcat初创公司

在Tomcat部署期间，JSF托管bean导致java.io.NotSerializableException

如何使用swig定义和传递ByteBuffer？

Java可以用来编写Win32系统服务吗？

Java pool.map/ Multiprocessing的Java等价物

关闭H2的正确方法是什么？

JVM进程大小和内存堆大小之间的巨大差异

Eclipse建议使用Null Pointerexception，但我相信我初始化了我的对象

Java相当于C＃system.beep？

以编程方式添加Java代码模板

Spring MVC Controller：“返回前进”，“返回重定向”和“返回jsp文件”之间的区别是什么