Tag: ocr

检测是否使用OCR从扫描的文档创建PDF

我想知道是否使用OCR从扫描的文档创建了PDF。 为了使扫描文档中的文本可以选择,我猜相同的文本是使用透明颜色,特殊字体,… 我正在使用pdfbox,我看了字体,颜色和许多其他属性,我没有找到任何特别的东西。

使用Java或.NET库从ColdFusion对PDF进行光学字符识别?

我希望得到一个PDF并从中提取任何文本。 然后我想使用ColdFusion可用的Verity搜索来搜索内容。 是否有任何图书馆已经很好地完成了这项工作? 我在范围内包含Java或.NET(Java首选)库,因为它们可以从CF调用。 任何见解或经验将不胜感激……谢谢! 编辑:索引PDF文件在文本嵌入PDF中时起作用,据我所知CF. 我不得不处理的PDF文本被扫描为图像。

通过命令行与JNI进行调用

我需要从Java应用服务器调用tesseract OCR(它是一个用C ++进行光学字符识别的开源库)。 现在,它很容易使用Runtime.exec()运行可执行文件。 基本逻辑是 将当前保存在内存中的图像保存到文件(a .tif) 将图像文件名传递给tesseract命令行程序。 使用FileReader从Java读取输出文本文件。 通过为Tesseract编写JNI包装器,我可以获得多少性能提升? 不幸的是,没有一个可在Linux中运行的开源JNI包装器。 我必须自己做,并且想知道这个好处是否值得开发成本。

pdf解析为java中的文本

我有一个阿拉伯语PDF,我想用Java将其解析为文本文档。 我已经尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。 任何人都可以推荐一个能够正确转换阿拉伯语单词的解决方案吗?

使用android vision Text OCR构建名片阅读器

我正在使用谷歌的Android移动视觉OCR文本构建一个Android应用程序,用于输入名片作为手机中的联系人。 到目前为止,我能够识别任何拉丁语生成的文本,并且能够在代码块上应用正则表达式 我所做的是我为五个变量名称,电子邮件,compnayname,网站,adrs,phnno创建了一个Contacts bean类。在正在生成的实时数据上应用正则表达式之后,我将过滤结果并将它们保存在bean类型的对象中class并将该对象传递给activity并提取存储在该对象中的数据并将其显示在我的文本视图中。 OCR图形类检测方法>>> List textComponents = text.getComponents(); for(final Text currentText : textComponents) { float left = translateX(currentText.getBoundingBox().left); float bottom = translateY(currentText.getBoundingBox().bottom); canvas.drawText(currentText.getValue(), left, bottom, sTextPaint); if (currentText != null && currentText.getValue() != null) { //stringList.add(currentText.getValue()); Log.e(“OCrGraphic”, “Text detected! ” + currentText.getValue()); if (isCompany== false && currentText.getValue().matches(“.[AZ].[^@$#/-!]+”)) { Log.e(“currentTextcompanyName”, currentText.getValue()); companyName = “”; companyName […]

识别java中图像中的数字

我想识别下图中的数字 我目前在eclipse java项目中使用Tess4J库,但它只能识别平面颜色背景中的字符。 对于此图像,它甚至无法识别此图像上是否有字符(数字)。 帮我找到完成这项任务的方法。 这是我目前的代码: import net.sourceforge.tess4j.*; import java.io.File; public class Main { public static void main(String[] args) { File imageFile = new File(“image.png”); Tesseract instance = Tesseract.getInstance(); try { String result = instance.doOCR(imageFile); System.out.println(result); } catch (TesseractException e) { System.err.println(e.getMessage()); } } } 如果有办法计算黄线分隔的方块。 Thank you

使用java从图像中提取文本

是否可以在不使用任何第三方API的情况下从图像中读取文本?

获取UnsatisfiedLinkError:创建TessBaseAPI时java.library.path中没有jnilept

我是java cpp和tesseract-ocr的新手。 几个小时后我遇到了一个问题。 我在创建TessBaseAPI时遇到了UnsatisfiedLinkError:java.library.path中没有 jnilept。 下面是我的代码。 public static void tesseractForPdf(String filePath) throws Exception { BytePointer outText; TessBaseAPI api = new TessBaseAPI();//getting the UnsatisfiedLinkError exception here. // Initialize tesseract-ocr with English, without specifying tessdata path if (api.Init(“.”, “ENG”) != 0) { System.err.println(“Could not initialize tesseract.”); System.exit(1); } // Open input image with leptonica library PIX image […]

是否有任何Java OCR工具将文本图像转换为可编辑的文本文件?

我正在开展一个项目,需要拍摄文本(从任何文本的硬拷贝),并将该文本转换为文本文件。 然后我想使用该文本文件做一些不同的事情,例如提供新闻文章的超链接或允许用户编辑文档。 到目前为止我尝试过的工具是sourceforge.net的Java OCR,它可以很好地处理包中提供的图像。 但是当我拍摄自己的文字时,它根本不起作用。 我应该实施一些培训流程吗? 如果是这样,有人知道如何实施它吗? 任何帮助都会有很长的路要走。 谢谢!

在Tomcat中设置环境变量TESSDATA_PREFIX

我们正在使用名为Tess4J的Tesseract OCR Java库。 如果作为独立应用程序运行,它可以正常工作。 它需要一个名为TESSDATA_PREFIX的变量,它包含tessdata配置和其他charset相关文件。 在eclipse中嵌入式Tomcat 6服务器运行良好。 我使用启动配置将TESSDATA_PREFIX设置为环境变量。 但是当我将所有内容打包到WAR并将其放入tomcat的deploy目录中时,环境变量似乎没有被选中,并且服务器在遇到doOCR api(需要tessdata配置)时崩溃。 我尝试在catalina.bat和thru命令行中设置这个env变量,但没有运气。