《大规模分布式存储系统》——基础篇

分布式存储系统分类：

《大规模分布式存储系统》——基础篇

一、单机存储系统：

1）、哈希存储引擎——Bitcask系统结构：

Bitcask以哈希表为存储引擎，仅支持追加操作，及所有的写操作只追加而不修改原有数据。在Bitcask中每个数据文件有大小限制，当文件增加到限制大小时，就产生一个新的活跃数据文件，而原文件变为老数据文件。老数据文件只读不写，所有的写操作都在活跃数据文件中进行。支持定期合并，删除数据文件中的冗余数据；系统掉电时，支持快速恢复，即直接读取以保存的索引文件恢复到哈希表中即可，而不用扫描所有的数据文件。

2）、关系数据库（B树存储引擎）——缓存算法

LRU缓存算法：

基本的LRU：将近期访问的item存到一个链表中，每次新访问的item加到链表头部，同时淘汰掉链表尾部item（即最近最少访问到的item被淘汰掉）。

问题1（缓存锁）：如每次访问item都要更新一次LRU链表，都需要对整个LRU加锁

问题2：若果一次查询中扫描了大量的item数据，则会导致缓存池LRU链表中的大部分或者全部数据被替换掉，从而污染缓存池。

改进的LRU:

对问题1：主要解决思路是“牺牲精度来减小锁粒度”，如：

分段LRU链表（如Mysql）：将LRU链表分为前后两部分，如果访问的item在前部分则不进行任何操作，即不用将该item移动到头部。只有在后半部分时才加锁，移动到头部。

计时LRU链表（如memcached）:链表的每个节点item都存储一个最近访问时间，每次访问该item时，只有当距离上次访问时间操作某个设定值才会移动该item到链表头部。

块LRU链表（如OceanBase）：链表的每个节点不是单独的一个item数据记录而是以块比如2MB的内存块。每次移动或者淘汰都以块为基本单位。每个块保存一个访问计数和最近访问时间，每次访问块中的任何一个item都会将该块的访问计数加1，当该块的访问计数达到某个设定值（比如所有块的平均访问次数）时就更新该块的最近访问时间。按块的最近访问时间来淘汰块。

对问题2：基本思想是“分级缓存”

LIRS算法（如MySQL InnoDB）：LIRS将数据分为两部分：LIR（Low Inner-reference Recency）和HIR（High Inner-reference Recency），其中，LIR中的数据是热点，在较短的时间内被访问了至少两次。LIRS可以看成是一种分级思想：第一级是HIR，第二级是LIR，数据先进入到第一级，当数据在较短的时间内被访问两次时成为热点数据则进入LIR，HIR和LIR内部都采用LRU策略。这样，LIR中的数据比较稳定。类似的，如可以实现两级cache，cache元素先进入第一级cache，当访问频率达到一定值（比如2）时升级到第二级，第一级和第二级均内部采用LRU进行替换。

3)、LSM树存储引擎——Google LevelDB

LSM的基本思想就是将的数据的修改增量保存在内存中，当内存达到大小限制后将这些增量数据批量写入磁盘，读取时需要合并磁盘中的历史数据和内存中的增量数据。（这与OceanBase的思想类似：基线数据存放在chunk Server中，增量数据放在Update Server中，读取是合并基线与增量数据再返回给客户端）。LSM的优势在于，以批量写入规避了磁盘的随机写入。

LevelDb是一个持久化的K_V存储系统，其基本架构可参考LevelDB源码分析系列文章。

《大规模分布式存储系统》——基础篇

二、分布式系统：

数据分布：

复制协议：

一致性与可用性：

容错：

分布协议：

两阶段提交协议2PC：

保证跨多个节点操作的原子性，即要么全部成功，要么全部失败，用于实现分布式事务。在两阶段协议中，系统包含两类节点：一个协调者（coordinator），和多个事务参与者(workers)。其执行过程如图所示。两阶段协议为阻塞协议，执行过程中需要加锁，不能被其他事务中断，且不能容错，大多数分布式系统都放弃该协议。

Paxos协议：

分布式系统设计领域，Paxos是及其重要的一致性算法。有人如是说：“All working protocols for asynchronous consensus we have so far encountered have Paxos at their core.”，因此后续将给出专门分析文章。

Paxos协议用于解决多个节点间的一致性问题。主节点将操作日志同步到其他备节点。如当主节点出现故障时，备节点（Propser）会提议自己成为主节点，而Paxos协议就是保证所有的节点达成一致意见，选举出唯一的新主节点。

参考：http://blog.csdn.net/anderscloud/article/details/7175209

*：http://zh.wikipedia.org/zh-cn/Paxos%E7%AE%97%E6%B3%95

（转载请注明出处：http://blog.csdn.net/yuyixinye/article/details/43318993）

秒客网

《大规模分布式存储系统》——基础篇

相关文章