是否可以使用Apache POI解析MS Word并将其转换为XML?
是否可以使用Apache POI将MS Word转换为XML文件?
如果是的话,你能指点我做任何教程吗?
我说你有两种选择,都是由Apache POI提供支持
一个是使用Apache Tika 。 Tika是一个文本和元数据提取工具包,能够通过对POI进行适当的调用从Word文档中提取相当丰富的文本。 结果是Tika将为您的word文档的内容提供XHTML样式的XML。
另一种选择是使用最近添加到POI的类,即WordToHtmlConverter 。 这会将您的word文档转换为HTML,并且通常会保留比Tika更多的结构和格式。
根据您希望获得的XML类型,其中一个应该是一个很好的选择。 我建议您尝试对付某些示例文件,并查看哪一个最适合您的问题域和需求。
HWPF子项目的目的正是:处理Word文件。
http://poi.apache.org/hwpf/index.html
然后,要将数据转换为XML,您必须通过以下方式构建XML:StAX,JDOM,XStream ……
Apache提供快速指南:
http://poi.apache.org/hwpf/quick-guide.html
我也发现:
http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/
如果要处理docx文件,可能需要查看OpenXML4J子项目: