使用Apache Tika在solr中的PDF文件的ContentExtraction

我试图使用以下教程http://wiki.apache.org/solr/ExtractingRequestHandler索引solr中的PDF文件但是每次我发出命令

java -jar post.jar *.pdf 

它说一些org.apache.solr.common.SolrException:无效的UTF-8中间字节0xe3错误请帮我将PDF索引到solr server.Is还有其他整合然后tika可以帮助我。

Post.jar只是一个将文件上传到Solr的实用程序。
Solr使用Extract处理程序,因此您需要提供url。 例如

 java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf 

对于加密文件,请检查链接
对于密码保护文件,请检查链接

这里显然存在一些编码问题。

我记得几个月前做过这样的事情,如果你能编写自己的Java代码,那就相当容易了。 这些都很简单,它们就像一个魅力!