Tag: mhtml

如何在java中读取或解析MHTML(.mht)文件

我需要挖掘大多数已知文档文件的内容 ,例如: PDF格式 HTML doc / docx等 对于我计划使用的大多数这些文件格式: http://tika.apache.org/ 但截至目前, Tika不支持MHTML(* .mht)文件..( http://en.wikipedia.org/wiki/MHTML )C#中的例子很少( http://www.codeproject.com/KB /files/MhtBuilder.aspx )但我在Java中找不到。 我尝试在7Zip中打开* .mht文件但它失败了……虽然WinZip能够将文件解压缩为图像和文本(CSS,HTML,Script)作为文本和二进制文件… 根据MSDN页面( http://msdn.microsoft.com/en-us/library/aa767785%28VS.85%29.aspx#compress_content )和前面提到的code project页面…… mht文件使用GZip压缩。 … 尝试在java中解压缩导致以下exception:使用java.uti.zip.GZIPInputStream java.io.IOException: Not in GZIP format at java.util.zip.GZIPInputStream.readHeader(Unknown Source) at java.util.zip.GZIPInputStream.(Unknown Source) at java.util.zip.GZIPInputStream.(Unknown Source) at GZipTest.main(GZipTest.java:16) 并使用java.util.zip.ZipFile java.util.zip.ZipException: error in opening zip file at java.util.zip.ZipFile.open(Native Method) at java.util.zip.ZipFile.(Unknown Source) […]