在Lucene中获取学期频率

有没有一种快速简便的方法可以从Lucene索引中获取术语频率，而无需通过TermVectorFrequencies类，因为这需要花费大量时间来处理大型集合？

我的意思是，是否有类似TermEnum东西，它不仅有文档频率，还有术语频率？

更新：使用TermDocs太慢了。

使用TermDocs获取给定文档的术语频率。与文档频率一样，您可以使用感兴趣的术语从IndexReader获取术语文档。

在不失一些普遍性的情况下，您将找不到比TermDocs更快的方法。 TermDocs直接从索引段中的“.frq”文件中读取，其中每个术语频率按文档顺序列出。

如果这“太慢”，请确保您已优化索引以将多个段合并为一个段。按顺序迭代文档（跳过正常，但不能有效地在文档列表中来回跳转）。

您的下一步可能是进行额外的处理，以创建一个更加专业化的文件结构，从而SkipData 。我个人会寻找一个更好的算法来实现我的目标，或提供更好的硬件 – 大量的内存，要么持有RAMDirectory ，要么提供给操作系统在自己的文件缓存系统上使用。

Lucene的trunk版本（最终为4.0）现在公开了来自TermsEnum的每个术语的totalTermFreq（）。这是该术语在所有内容中出现的总次数（但是，与docFreq一样，不考虑删除）。

TermDocs给出包含该术语的每个文档中给定术语的TF。您可以通过迭代每个对并计算对的数量来获取DF，尽管TermEnums应该更快。 IndexReader有一个termDocs（Term）方法，它返回给定Term和index的TermDocs。