如何索引lucene中的pdf，ppt，xl文件（基于java或python或php中的任何一个都可以）？

此外，我想知道如何在索引时添加元数据，以便我可以提升一些参数

Lucene索引文本而不是文件 – 你需要一些其他的过程来从文件中提取文本并运行Lucene。

有几个框架用于从富文本文件中提取适合Lucene索引的文本（pdf，ppt等）

其中之一是Lucene的子项目Apache Tika 。
Apache POI是Apache内部更通用的文档处理项目。
还有一些商业替代品。

你可以使用Apache Tika 。 Tika是一个工具包，用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

支持的文档格式

超文本标记语言
XML和派生格式
Microsoft Office文档格式
OpenDocument格式
可移植文档格式
电子出版格式
富文本格式
压缩和包装格式
文字格式
音频格式
图像格式
video格式
Java类文件和档案
mbox格式

代码看起来像这样。读者读者=新Tika（）。解析（流）;

有关使用PDFBox和Apache Lucene将PDF文件逐页拆分为文本的java解决方案，请参阅https://github.com/WolfgangFahl/pdfindexer ，索引这些文本页面并创建链接到页面的结果html索引文件在pdf源中使用相应的open参数。

Interesting Posts

JAXB是否使用字节码检测？

导致VM故障的Java map / nio / NFS问题：“在编译的Java代码中最近的不安全内存访问操作中发生了故障”

sockets如何连接和关闭？

我应该如何阅读缓冲读卡器？

org.eclipse.swt.widgets.Button从代码中单击

SuppressWarnings不适用于FindBugs

免费的AOT Java编译器

调用webservice的问题 – javax.xml.ws.WebServiceException和类没有名称的属性

如何在Spring中检查@Async调用是否已完成？

使用Reflection分配对象字段值的Java方法