无法使用TesseractOCRConfig Apache Tika提取扫描的pdf

我的pdf包含扫描图像,我想从中提取文本。

我尝试过:我尝试使用AutoDetectParsers但没有输出。

我按照Apache Tika提取的扫描PDF文件提供的解决方案以及https://issues.apache.org/jira/browse/TIKA-1729上的 Apache Tika Jira,但得到空字符串没有任何错误。

我的配置:Win 7 64位操作系统,JDK 1.8.0_45。

欢迎任何forms的帮助。

要解决此问题的步骤:

  1. 使用适用于Windows的’tesseract-ocr-setup-3.05.00dev.exe’从系统安装Tesseract: https ://sourceforge.net/projects/tesseract-ocr-alt/files/并在配置中设置其位置。

    Java代码:

    Parser parser = new AutoDetectParser(); BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE); TesseractOCRConfig config = new TesseractOCRConfig(); config.setTesseractPath(tPath); PDFParserConfig pdfConfig = new PDFParserConfig(); pdfConfig.setExtractInlineImages(true); pdfConfig.setExtractUniqueInlineImagesOnly(false); // set to false if pdf contains multiple images. ParseContext parseContext = new ParseContext(); parseContext.set(TesseractOCRConfig.class, config); parseContext.set(PDFParserConfig.class, pdfConfig); //need to add this to make sure recursive parsing happens! parseContext.set(Parser.class, parser); 
  2. Maven依赖:

org.apache.tika tika-parsers 1.13 com.levigo.jbig2 levigo-jbig2-imageio 1.6.5 com.github.jai-imageio jai-imageio-core 1.3.1

我认为这可能会有所帮助。 谢谢。