用于读取Word文档的Java库

是否有一个用于读取Word文档(.docx和旧的.doc格式)的开源Java库?

只读访问权限; 我不需要使用Java修改Word文档。 但是,我想访问图像和样式信息。

编辑

我已经检查了Apache POI,但它看起来并没有被积极维护。 见http://poi.apache.org/hwpf/index.html :

目前,我们遗憾的是没有人照顾HWPF并促进其发展。

用于.doc的Apache POI HWPF和用于.docx文件的XWPF

有一个apache项目可以做到这一点: http : //poi.apache.org//

 public class XParseTest { public static void main(String[] args) throws XmlException, OpenXML4JException, IOException { File file=new File("e:\\testing\\new.docx"); FileInputStream fs = new FileInputStream(file); OPCPackage d = OPCPackage.open(fs); XWPFWordExtractor xw = new XWPFWordExtractor(d); System.out.println(xw.getText()); } } 

这将解析docx文件…