转:关于数据库压缩技术的Survey

时间:2023-02-09 22:32:34

原文来自于:http://outofmemory.cn/mysql/database-compression-tech

昨天给团队内的小伙伴做了一个关于数据库压缩技术的Survey,现将其中可以公开的部分分享出来。数据库压缩技术目前已经成为了各种数据库的标配技术,这里面包括三大商业数据库、各种专业的分新型数据库,也包括各种开源数据库和NoSQL数据库。

到了今天,数据库压缩技术的运用已经不单纯是为了节省存储成本,更多的时候,是为了提供更高的计算密度(比如容量受限的SSD),以及提供更高的查询性能(OLAP)。对于压缩的有利因素,一些公共的认知是:列比行更有利于压缩,更大的输入、有序的输入更有利于压缩。

不同数据库对于压缩粒度的选择也千差万别,大多数数据库使用块作为压缩的基本单位,少数数据库会提供字段级的压缩,但也有一些数据库使用表、甚至整个库作为压缩的基本单位。很明显,压缩粒度越粗,对系统的可用性影响越大,表级以上的压缩粒度通常不再被认为是数据库本身支持了压缩技术。

除了压缩粒度之外,存储格式的选择对应用场景也比较重要,比如行存适合于宽查询(访问少数行和多数列),面向投影优化(OLTP);而列存适合于窄查询(访问多数行和少数列),面向Filter优化(OLAP);两者的混合体是所谓的块内按列压缩,块间按行组织,即行列混合存储(PAX),典型的代表是ORACLE EXADATA的HCC。

虽然是一种标配,但不同数据库对于数据库压缩技术的实现几乎各不相同,但总体上可以分为三个层次:1)Packing,比如消除小整数的前端0,消除CHAR的尾部空格等,这类压缩技术通常发生在OLTP系统中,粒度通常为字段级别,系统通常会提供正常和紧缩的两种存储格式;2)Encoding,也就是规则压缩,典型的方法包括字典、RLE、前缀、差值等,相关技术的细节,在参考资料里有详细的论述;3)Compression,也就是后端压缩,即直接使用通用的压缩算法,比如Snappy、Zlib、BZip等。

所有商业数据库和专业的分析型数据库都会引入不同的Encoding方法,而不会直接使用Compression。道理很简单,首先,Encode比Compression更懂数据,因为Compression总是把数据看成连续的字节流,而Encoding知道每个字段的边界、类型和值域特征,所以Encoding+Compression会比仅使用Compression能提供更高的压缩率;第二,Encoding会提供更高的解码速度,因为哪怕是最快的Snappy,也需要把数据完全解压后才可查询,而大多数Encoding方法不需要解码即可查询;最后,Encoding会提供合理的编码速度,虽然比不过Snappy,但会远超Zlib、Bzip这样的对手。

下面给出一个数据库压缩技术的Survey:

转:关于数据库压缩技术的Survey转:关于数据库压缩技术的Survey

以下给出一些数据库压缩技术有用的链接:

转:关于数据库压缩技术的Survey

转:关于数据库压缩技术的Survey的更多相关文章

  1. 腾讯技术分享:GIF动图技术详解及手机QQ动态表情压缩技术实践

    本文来自腾讯前端开发工程师“ wendygogogo”的技术分享,作者自评:“在Web前端摸爬滚打的码农一枚,对技术充满热情的菜鸟,致力为手Q的建设添砖加瓦.” 1.GIF格式的历史 GIF ( Gr ...

  2. 【RMAN】使用RMAN的 Compressed Backupsets备份压缩技术 (转载)

    1.Oracle参考文档中关于RMAN备份压缩的描述1)关于如何通过调整RMAN参数启用取消备份压缩功能http://download.oracle.com/docs/cd/B19306_01/bac ...

  3. oracle 表压缩技术

    压缩表是我们维护管理中常常会用到的.以下我们看都oracle给我们提供了哪些压缩方式. 文章摘自"Oracle® Database Administrator's Guide11g Rele ...

  4. C#-数据库访问技术 ado.net——创建 数据库连接类 与 数据库操作方法 以及简单的数据的添加、删除、修改、查看

    数据库访问技术 ado.net 将数据库中的数据,提取到内存中,展示给用户看还可以将内存中的数据写入数据库中去 并不是唯一的数据库访问技术,但是它是最底层的数据库访问技术 1.创建数据库,并设置主外键 ...

  5. C#与数据库访问技术总结(十八)

    ADO.NET 代码综合示例 前面已经介绍过OLE DB.NET和SQL Server.NET数据提供者可以用来连接不同的数据源. 以下代码不仅综合演示了使用ADO.NET的这两种数据提供者访问数据库 ...

  6. ASP.NET MVC5--为数据库新增字段(涉及数据库迁移技术)

    Setting up Code First Migrations for Model Changes--为模型更改做数据库迁移. 1.打开资源管理器,在App_Data文件夹下,找到movies.md ...

  7. Java后端实现图片压缩技术

    今天来说说图片压缩技术,为什么要使用图片压缩,图片上传不就完事了吗?对的,这在几年前可以这么说,因为几年前还没有现在这么大的并发,也没有现在这么关注性能. 如今手机很多,很多人都是通过手机访问网络或者 ...

  8. C语言中的内存压缩技术

    C语言中的内存压缩技术 前言 在整个研究生阶段我都在参与一个LTE协议栈实现的项目,在这个项目中,我们利用一个自己编写的有限状态机框架将协议栈中每一层实现为一个内核模块.我们知道,在编写内核代码时需要 ...

  9. 20.2.翻译系列:EF 6中基于代码的数据库迁移技术【EF 6 Code-First系列】

    原文链接:https://www.entityframeworktutorial.net/code-first/code-based-migration-in-code-first.aspx EF 6 ...

随机推荐

  1. Ruby学习之module

    我们可以认为module是一个专门存放一系列方法和常量的工具箱. module和class非常像, 只是module不能创建实例也不能有子类, 它们仅仅能存放东西. 例如: module Circle ...

  2. IDE整理

    1.eclipse 下载地址:http://www.eclipse.org/downloads/     2.myeclipse 下载地址:http://www.myeclipseide.com/mo ...

  3. Netty 4(一) zero copy

    Netty的“零拷贝”主要体现在如下三个方面: 1) Netty的接收和发送ByteBuffer采用DIRECT BUFFERS,使用堆外直接内存进行Socket读写,不需要进行字节缓冲区的二次拷贝. ...

  4. Java NIO框架Mina、Netty、Grizzly介绍与对比

    Mina:Mina(Multipurpose Infrastructure for Network Applications) 是 Apache 组织一个较新的项目,它为开发高性能和高可用性的网络应用 ...

  5. TopFreeTheme精选免费模板【20130703】

    今天我们给大家分享13个最新的主题模板,5款WordPress主题,5款Joomla模板,3款OpenCart主题. BowThemes – BT Folio v1.0 Template for Jo ...

  6. Yorhom浅谈:作为一名初中生,自学编程的点点滴滴 - Yorhom's Game Box

    Yorhom浅谈:作为一名初中生,自学编程的点点滴滴 我是一名不折不扣的初中生,白天要背着书包去上学,晚上要拿起笔写作业.天天如此,年年如此. 我的爱好很广泛,喜欢了解历史,读侦探小说,骑车,打篮球, ...

  7. mongo+mongoose+express

    直接上指令: //*代表自定义名字 //使用数据库 use * //检查当前数据库 db //查询数据库列表 show dbs //查询当前数据库集合 show collections //插入文档自 ...

  8. mac 安装mysql特种报错的对应解决方式

    参考 :http://www.jianshu.com/p/776e72742c6e 原文废话太多了, 还是看我的好了. 配置环境变量 echo "export PATH=$PATH:/usr ...

  9. C++版 - 剑指Offer 面试题39:二叉树的深度(高度)(二叉树深度优先遍历dfs的应用) 题解

    剑指Offer 面试题39:二叉树的深度(高度) 题目:输入一棵二叉树的根结点,求该树的深度.从根结点到叶结点依次经过的结点(含根.叶结点)形成树的一条路径,最长路径的长度为树的深度.例如:输入二叉树 ...

  10. 9.9 翻译系列:数据注解特性之--MaxLength 【EF 6 Code-First系列】

    原文链接:https://www.entityframeworktutorial.net/code-first/maxlength-minlength-dataannotations-attribut ...