如何索引lucene中的pdf,ppt,xl文件(基于java或python或php中的任何一个都可以)?

此外,我想知道如何在索引时添加元数据,以便我可以提升一些参数

Lucene索引文本而不是文件 – 你需要一些其他的过程来从文件中提取文本并运行Lucene。

有几个框架用于从富文本文件中提取适合Lucene索引的文本(pdf,ppt等)

  • 其中之一是Lucene的子项目Apache Tika 。
  • Apache POI是Apache内部更通用的文档处理项目。
  • 还有一些商业替代品。

你可以使用Apache Tika 。 Tika是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

支持的文档格式

  • 超文本标记语言
  • XML和派生格式
  • Microsoft Office文档格式
  • OpenDocument格式
  • 可移植文档格式
  • 电子出版格式
  • 富文本格式
  • 压缩和包装格式
  • 文字格式
  • 音频格式
  • 图像格式
  • video格式
  • Java类文件和档案
  • mbox格式

代码看起来像这样。 读者读者=新Tika()。解析(流);

有关使用PDFBox和Apache Lucene将PDF文件逐页拆分为文本的java解决方案,请参阅https://github.com/WolfgangFahl/pdfindexer ,索引这些文本页面并创建链接到页面的结果html索引文件在pdf源中使用相应的open参数。