使用Java或.NET库从ColdFusion对PDF进行光学字符识别?

我希望得到一个PDF并从中提取任何文本。 然后我想使用ColdFusion可用的Verity搜索来搜索内容。

是否有任何图书馆已经很好地完成了这项工作? 我在范围内包含Java或.NET(Java首选)库,因为它们可以从CF调用。

任何见解或经验将不胜感激……谢谢!

编辑:索引PDF文件在文本嵌入PDF中时起作用,据我所知CF. 我不得不处理的PDF文本被扫描为图像。

如果您有能力运行自己的软件(即Dedicated / VPS),那么您可以调查使用Tesseract OCR和cfexecute将PDF转换为文本吗?

Ray Camden有一个由八部分组成的关于在ColdFusion 8中处理PDF的系列文章。

本系列的第7部分介绍如何使用DDX从PDF中获取文本。

不确定这会对您的OCR需求有效,但可能仍值得关注。

在一个半相关的说明中,我发现了一个关于编码和读取coldfusion中的2D Matrix条形码的非常简洁的post。

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

这可能解决了我需要提取编码信息的一些问题,但我仍然在文本正文之后。

关于tessnet,也找到了.net版本。 http://www.pixel-technology.com/freeware/tessnet2/如果我可以原生地输入PDF而不是TIFF .. 🙂