Tag: ocr

检测是否使用OCR从扫描的文档创建PDF: 我想知道是否使用OCR从扫描的文档创建了PDF。为了使扫描文档中的文本可以选择，我猜相同的文本是使用透明颜色，特殊字体，… 我正在使用pdfbox，我看了字体，颜色和许多其他属性，我没有找到任何特别的东西。

使用Java或.NET库从ColdFusion对PDF进行光学字符识别？: 我希望得到一个PDF并从中提取任何文本。然后我想使用ColdFusion可用的Verity搜索来搜索内容。是否有任何图书馆已经很好地完成了这项工作？我在范围内包含Java或.NET（Java首选）库，因为它们可以从CF调用。任何见解或经验将不胜感激……谢谢！编辑：索引PDF文件在文本嵌入PDF中时起作用，据我所知CF. 我不得不处理的PDF文本被扫描为图像。

通过命令行与JNI进行调用: 我需要从Java应用服务器调用tesseract OCR（它是一个用C ++进行光学字符识别的开源库）。现在，它很容易使用Runtime.exec（）运行可执行文件。基本逻辑是将当前保存在内存中的图像保存到文件（a .tif）将图像文件名传递给tesseract命令行程序。使用FileReader从Java读取输出文本文件。通过为Tesseract编写JNI包装器，我可以获得多少性能提升？不幸的是，没有一个可在Linux中运行的开源JNI包装器。我必须自己做，并且想知道这个好处是否值得开发成本。

pdf解析为java中的文本: 我有一个阿拉伯语PDF，我想用Java将其解析为文本文档。我已经尝试了很多次，英语单词解析成功，但阿拉伯语单词没有。任何人都可以推荐一个能够正确转换阿拉伯语单词的解决方案吗？

使用android vision Text OCR构建名片阅读器: 我正在使用谷歌的Android移动视觉OCR文本构建一个Android应用程序，用于输入名片作为手机中的联系人。到目前为止，我能够识别任何拉丁语生成的文本，并且能够在代码块上应用正则表达式我所做的是我为五个变量名称，电子邮件，compnayname，网站，adrs，phnno创建了一个Contacts bean类。在正在生成的实时数据上应用正则表达式之后，我将过滤结果并将它们保存在bean类型的对象中class并将该对象传递给activity并提取存储在该对象中的数据并将其显示在我的文本视图中。 OCR图形类检测方法>>> List textComponents = text.getComponents(); for(final Text currentText : textComponents) { float left = translateX(currentText.getBoundingBox().left); float bottom = translateY(currentText.getBoundingBox().bottom); canvas.drawText(currentText.getValue(), left, bottom, sTextPaint); if (currentText != null && currentText.getValue() != null) { //stringList.add(currentText.getValue()); Log.e(“OCrGraphic”, “Text detected! ” + currentText.getValue()); if (isCompany== false && currentText.getValue().matches(“.[AZ].[^@$#/-!]+”)) { Log.e(“currentTextcompanyName”, currentText.getValue()); companyName = “”; companyName […]

识别java中图像中的数字: 我想识别下图中的数字我目前在eclipse java项目中使用Tess4J库，但它只能识别平面颜色背景中的字符。对于此图像，它甚至无法识别此图像上是否有字符（数字）。帮我找到完成这项任务的方法。这是我目前的代码： import net.sourceforge.tess4j.*; import java.io.File; public class Main { public static void main(String[] args) { File imageFile = new File(“image.png”); Tesseract instance = Tesseract.getInstance(); try { String result = instance.doOCR(imageFile); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); } } } 如果有办法计算黄线分隔的方块。 Thank you

获取UnsatisfiedLinkError：创建TessBaseAPI时java.library.path中没有jnilept: 我是java cpp和tesseract-ocr的新手。几个小时后我遇到了一个问题。我在创建TessBaseAPI时遇到了UnsatisfiedLinkError：java.library.path中没有 jnilept。下面是我的代码。 public static void tesseractForPdf(String filePath) throws Exception { BytePointer outText; TessBaseAPI api = new TessBaseAPI();//getting the UnsatisfiedLinkError exception here. // Initialize tesseract-ocr with English, without specifying tessdata path if (api.Init(“.”, “ENG”) != 0) { System.err.println(“Could not initialize tesseract.”); System.exit(1); } // Open input image with leptonica library PIX image […]

是否有任何Java OCR工具将文本图像转换为可编辑的文本文件？: 我正在开展一个项目，需要拍摄文本（从任何文本的硬拷贝），并将该文本转换为文本文件。然后我想使用该文本文件做一些不同的事情，例如提供新闻文章的超链接或允许用户编辑文档。到目前为止我尝试过的工具是sourceforge.net的Java OCR，它可以很好地处理包中提供的图像。但是当我拍摄自己的文字时，它根本不起作用。我应该实施一些培训流程吗？如果是这样，有人知道如何实施它吗？任何帮助都会有很长的路要走。谢谢！

在Tomcat中设置环境变量TESSDATA_PREFIX: 我们正在使用名为Tess4J的Tesseract OCR Java库。如果作为独立应用程序运行，它可以正常工作。它需要一个名为TESSDATA_PREFIX的变量，它包含tessdata配置和其他charset相关文件。在eclipse中嵌入式Tomcat 6服务器运行良好。我使用启动配置将TESSDATA_PREFIX设置为环境变量。但是当我将所有内容打包到WAR并将其放入tomcat的deploy目录中时，环境变量似乎没有被选中，并且服务器在遇到doOCR api（需要tessdata配置）时崩溃。我尝试在catalina.bat和thru命令行中设置这个env变量，但没有运气。