pdf解析为java中的文本

我有一个阿拉伯语PDF,我想用Java将其解析为文本文档。 我已经尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。

任何人都可以推荐一个能够正确转换阿拉伯语单词的解决方案吗?

我想你可以使用iText来使用Java进行pdf操作。 它也支持阿拉伯语。

有几个图书馆浮现在脑海中。 Apache Tika , iText或pdfbox都会或多或少地解决您的问题。 虽然,我必须为Tika说一句话,因为它支持语言检测,也可以处理其他文档类型。