Hive 压缩技术Data Compression

时间:2022-06-10 21:09:54

Mapreducwe 执行流程 :input > map > shuffle > reduce > output

压缩执行时间,map 之后,压缩,数据存储在本地磁盘,减少磁盘IO,减少网络带宽。

1.常见压缩技术

压缩格式 bzip2 gzip lzo snappy

压缩比 bzip2 > gzip > lzo | snappy bzip2 最节省空间

解压速度 sanppy | lzo > gzip > bzip2 lzo|sanppy 最解压快

综合考虑,其实是为了节省CPU,lzo 和 snappy 更符合需求,但是,由于 snappy 出生名门(Google开源产品)

数据后的数据要具有可分割性,就是可以切开来,每一个块单独解压使用 splittability

2.压缩位置说明

Hive 压缩技术Data Compression

3.支持包

snappy : org.apache.hadoop.io.compress.SnappyCodec
lzo : org.hadoop.compression.loz.LozCodec

4.mapreduce 中的压缩配置

Hive 压缩技术Data Compression

5.Hive 中的压缩配置

Hive 压缩技术Data Compression