使用Java或.NET库从ColdFusion对PDF进行光学字符识别？

我希望得到一个PDF并从中提取任何文本。然后我想使用ColdFusion可用的Verity搜索来搜索内容。

是否有任何图书馆已经很好地完成了这项工作？我在范围内包含Java或.NET（Java首选）库，因为它们可以从CF调用。

任何见解或经验将不胜感激……谢谢！

编辑：索引PDF文件在文本嵌入PDF中时起作用，据我所知CF. 我不得不处理的PDF文本被扫描为图像。

如果您有能力运行自己的软件（即Dedicated / VPS），那么您可以调查使用Tesseract OCR和cfexecute将PDF转换为文本吗？

Verity应该能够默认索引PDF文件：

Ray Camden有一个由八部分组成的关于在ColdFusion 8中处理PDF的系列文章。

本系列的第7部分介绍如何使用DDX从PDF中获取文本。

不确定这会对您的OCR需求有效，但可能仍值得关注。

在一个半相关的说明中，我发现了一个关于编码和读取coldfusion中的2D Matrix条形码的非常简洁的post。

这可能解决了我需要提取编码信息的一些问题，但我仍然在文本正文之后。