介绍
DEFLATE:Hadoop自带的压缩方式,文件扩展名为.deflate,不支持切片。
Gzip:压缩率比较高,而且压缩/解压速度也比较快;Hadoop本身支持,在应用中处理Gzip格式的文件就和直接处理文本一样;大部分Linux系统都自带Gzip命令,使用方便。但是,Gzip不支持切片。
bzip2:支持切片;具有很高的压缩率,比Gzip压缩率都高;Hadoop本身自带,使用方便。但是,bzip2的压缩/解压速度慢。
LZO:压缩/解压速度也比较快,合理的压缩率;支持切片,是Hadoop中zui流行的压缩格式;可以在Linux系统下安装lzop命令,使用方便。但是,LZO的压缩率比Gzip要低一些;Hadoop本身不支持,需要安装;在应用中对LZO格式的文件需要做一些特殊处理(为了支持切片需要建索引,还需要指定InputFormat为LZO格式)。
Snappy:高速压缩速度和合理的压缩率。但是,Snappy不支持切片;压缩率比Gzip要低;Hadoop2版本不支持,需要安装,Hadoop3版本已经自带支持。
压缩 方式 选择
压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。