压缩hadoop mapreduce输出的最简单有效的方法
我可以用map压缩mapreduce输出到gzip
"mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"
是否可以直接为hadoop实现zip编解码器? Zip是容器,但每个存档只需要一个文件,那么使用CompressionCodec
接口创建ZipCodec
会很容易吗?
或者,也许有一种将gz
文件转换为zip
的有效方法,因为它们可以使用相同的deflate算法?
没什么大不了的,你可以包装一个java.util.zip.ZipOutputStream
。
您可以通过扩展org.apache.hadoop.io.compress.DefaultCodec
来实现自己的编解码器。
在此编解码器中,您可以通过分别扩展org.apache.hadoop.io.compress.CompressorStream
org.apache.hadoop.io.compress.DecompressorStream
包装java zip流。
最后,您必须覆盖createInputStream
和createOutputStream
方法,并在那里返回包装流的新实例。
还是有点编码,我很确定在某个地方必须有一个已经存在的实现(我可能还记得它也是在几年前的Hadoop版本中)。