如何使用java和PDFBox从PDF获取字符的Unicode

我正在使用Apache PDFBox和Java来解析PDF并从中获取所有信息。提取文本仅适用于英语。对于其他语言，我只获得一些特殊字符。例如，提取阿拉伯字符ش将给出字符串：“？on printing。当我将计算机的”区域和语言“从英语更改为阿拉伯语时工作正常。所以我认为提取字符的Unicode将解决这个问题问题。请帮我从PDF获取字符的Unicode或建议我解决这个问题的一些解决方案。

尝试更改Java系统区域设置。从Java程序中，这应该等同于更改操作系统设置。

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java

私有String转义（String chars）将字符转换为unicode。

Interesting Posts

使用Jackcess Encrypt会导致Cobertura出现“NoClassDefFoundError”exception

Java 8中静态方法引用的限制

制作表格与JPanels列表（应用百分比大小列）

何时使用EventListenerList而不是一般的侦听器集合

预初始化工作线程池以重用连接对象（套接字）

Java事件传播已停止

谁使用实时Java？

如何获取SOAP请求客户端计算机的源IP？

generics，数组和ClassCastException

使用python将CSV文件转换为LIBSVM兼容数据文件