使用Apache Tika在solr中的PDF文件的ContentExtraction
我试图使用以下教程http://wiki.apache.org/solr/ExtractingRequestHandler索引solr中的PDF文件但是每次我发出命令
java -jar post.jar *.pdf
它说一些org.apache.solr.common.SolrException:无效的UTF-8中间字节0xe3错误请帮我将PDF索引到solr server.Is还有其他整合然后tika可以帮助我。
Post.jar只是一个将文件上传到Solr的实用程序。
Solr使用Extract处理程序,因此您需要提供url。 例如
java -Durl=http://localhost:8983/solr/update/extract?literal.id=1 -Dtype=application/pdf -jar post.jar 1.pdf
对于加密文件,请检查链接
对于密码保护文件,请检查链接
这里显然存在一些编码问题。
我记得几个月前做过这样的事情,如果你能编写自己的Java代码,那就相当容易了。 这些都很简单,它们就像一个魅力!