用于读取Word文档的Java库
是否有一个用于读取Word文档(.docx和旧的.doc格式)的开源Java库?
只读访问权限; 我不需要使用Java修改Word文档。 但是,我想访问图像和样式信息。
编辑
我已经检查了Apache POI,但它看起来并没有被积极维护。 见http://poi.apache.org/hwpf/index.html :
目前,我们遗憾的是没有人照顾HWPF并促进其发展。
用于.doc的Apache POI HWPF和用于.docx文件的XWPF
有一个apache项目可以做到这一点: http : //poi.apache.org//
public class XParseTest { public static void main(String[] args) throws XmlException, OpenXML4JException, IOException { File file=new File("e:\\testing\\new.docx"); FileInputStream fs = new FileInputStream(file); OPCPackage d = OPCPackage.open(fs); XWPFWordExtractor xw = new XWPFWordExtractor(d); System.out.println(xw.getText()); } }
这将解析docx文件…