使用Apache Tika在solr中的PDF文件的ContentExtraction

我试图使用以下教程http://wiki.apache.org/solr/ExtractingRequestHandler索引solr中的PDF文件但是每次我发出命令

java -jar post.jar *.pdf

它说一些org.apache.solr.common.SolrException：无效的UTF-8中间字节0xe3错误请帮我将PDF索引到solr server.Is还有其他整合然后tika可以帮助我。

Post.jar只是一个将文件上传到Solr的实用程序。
Solr使用Extract处理程序，因此您需要提供url。例如

 java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf

对于加密文件，请检查链接
对于密码保护文件，请检查链接

这里显然存在一些编码问题。

我记得几个月前做过这样的事情，如果你能编写自己的Java代码，那就相当容易了。这些都很简单，它们就像一个魅力！

Interesting Posts

使用Tikajar子进行Mimetype检查

使用Solr CELL的ExtractingRequestHandler从包格式索引/提取文件

java.lang.IllegalArgumentException：protocol = http host = null

如何使用OpenNLP创建自定义模型？

Apache tika检测到csv的mime类型不正确

如何从Java中的MIME类型确定适当的文件扩展名

无法使用TesseractOCRConfig Apache Tika提取扫描的pdf

Apache Tika提取扫描PDF文件

解析文档时的Apache Tika和字符限制

如何为几种文档类型正确配置Apache Tika？