检测是否使用OCR从扫描的文档创建PDF

我想知道是否使用OCR从扫描的文档创建了PDF。

为了使扫描文档中的文本可以选择，我猜相同的文本是使用透明颜色，特殊字体，…

我正在使用pdfbox，我看了字体，颜色和许多其他属性，我没有找到任何特别的东西。

在我的例子中，文本渲染模式设置为“既不填充也不冲程文本”。

pdfbox代码：

getGraphicsState().getTextState().getRenderingMode() == PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT

在大多数情况下，原始图像仍然存在，并且OCRd文本在下面是不可见的。

因此，一种可能性是找出是否有一张图片覆盖了所有带有文字的区域。

另一种可能性是查看字体并根据它们做出一些明智的决定