Hadoop 数据压缩方式

介绍

DEFLATE:Hadoop自带的压缩方式,文件扩展名为.deflate,不支持切片。

Gzip:压缩率比较高,而且压缩/解压速度也比较快;Hadoop本身支持,在应用中处理Gzip格式的文件就和直接处理文本一样;大部分Linux系统都自带Gzip命令,使用方便。但是,Gzip不支持切片。

bzip2:支持切片;具有很高的压缩率,比Gzip压缩率都高;Hadoop本身自带,使用方便。但是,bzip2的压缩/解压速度慢。

LZO:压缩/解压速度也比较快,合理的压缩率;支持切片,是Hadoop中zui流行的压缩格式;可以在Linux系统下安装lzop命令,使用方便。但是,LZO的压缩率比Gzip要低一些;Hadoop本身不支持,需要安装;在应用中对LZO格式的文件需要做一些特殊处理(为了支持切片需要建索引,还需要指定InputFormat为LZO格式)。

Snappy:高速压缩速度和合理的压缩率。但是,Snappy不支持切片;压缩率比Gzip要低;Hadoop2版本不支持,需要安装,Hadoop3版本已经自带支持。

压缩 方式 选择

压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。

请使用浏览器的分享功能分享到微信等