分布式协议之两阶段提交协议(2PC)和改进三阶段提交协议(3PC)

时间:2021-05-16 10:48:45

一、 事务的ACID

事务是保证数据库从一个一致性的状态永久地变成另外一个一致性状态的根本,当中,ACID是事务的基本特性。

A是Atomicity,原子性。一个事务往往涉及到很多的子操作,原子性则保证这些子操作要么都做,要么都不做,而不至于出现事务的部分操

作成功。而另外一部分操作没有成功。假设事务在运行的过程中错误发生,那么数据库将回滚到事务发生之前的状态。

比方银行的转账服务。

这个事务的终于结果一定是:某个账户的剩余金额添加了x,而另外一个账户的剩余金额降低了x,或者两个账户的剩余金额未发生变化。而不会出现其他

情况。

C是Consistency,一致性。一致性是指事务发生前和发生以后,都不会破坏数据库的约束关系,保证了数据库元素的正确性、有效性和完整

性。

这样的约束关系能够是数据库内部的约束。比方数据库元素的值必须在一定的范围内。也能够是应用带来的约束。比方转账以后银行账户

的剩余金额不能为负数。

 

I是Isolation。隔离性。一个事务的操作在未提交曾经,是不会被并行发生的其它事务訪问到的。也就是说。数据库操作不会看到某个事务

的中间操作结果。比方转账过程中。用户是不能查询到一个账户剩余金额降低了,而另外一个账户剩余金额未发生变化的情况。

D是Durability,持久性。

事务完毕以后,它对数据库的影响是永久性的,即使在数据库系统发生宕机或者其它故障的情况下。这样的影响也

会得到保持。

二、 数据库事务性具有ACID4个特性,那么在分布式系统中是怎么保证这4个特性的呢?我们先来看看原子性的实现二阶段提交协议(2PC).

1 二阶段提交(2PC)

  分布式系统的一个难点是怎样保证架构下多个节点在进行事务性操作的时候保持一致性。为实现这个目的。二阶段提交算法的成立基于下面如果:

1)该分布式系统中。存在一个节点作为协调者(Coordinator)。其它节点作为參与者(Cohorts)。且节点之间能够进行网络通信。

2)全部节点都採用预写式日志,且日志被写入后即被保持在可靠的存储设备上,即使节点损坏不会导致日志数据的消失。

3)全部节点不会永久性损坏。即使损坏后仍然能够恢复。

  第一阶段(投票阶段):

1)协调者节点向全部參与者节点询问能否够运行提交操作(vote),并開始等待各參与者节点的响应。

2)參与者节点运行询问发起为止的全部事务操作。并将Undo信息和Redo信息写入日志。(注意:若成功这里事实上每一个參与者已经运行了事务操作)

3)各參与者节点响应协调者节点发起的询问。假设參与者节点的事务操作实际运行成功,则它返回一个"允许"消息;假设參与者节点的事务操作实际运行失败,则它返回一个"中止"消息。

  第二阶段(提交运行阶段):

  当协调者节点从全部參与者节点获得的对应消息都为"允许"时:

1)协调者节点向全部參与者节点发出"正式提交(commit)"的请求。

2)參与者节点正式完毕操作,并释放在整个事务期间内占用的资源。

3)參与者节点向协调者节点发送"完毕"消息。

4)协调者节点受到全部參与者节点反馈的"完毕"消息后。完毕事务。

  假设任一參与者节点在第一阶段返回的响应消息为"中止"。或者 协调者节点在第一阶段的询问超时之前无法获取全部參与者节点的响应消息时:

1)协调者节点向全部參与者节点发出"回滚操作(rollback)"的请求。

2)參与者节点利用之前写入的Undo信息运行回滚。并释放在整个事务期间内占用的资源。

3)參与者节点向协调者节点发送"回滚完毕"消息。

4)协调者节点受到全部參与者节点反馈的"回滚完毕"消息后,取消事务。

  无论最后结果怎样,第二阶段都会结束当前事务。





  二阶段提交看起来确实可以提供原子性的操作,可是不幸的事。二阶段提交还是有几个缺点的:

  1、运行过程中,全部參与节点都是事务堵塞型的。

当參与者占有公共资源时。其它第三方节点訪问公共资源不得不处于堵塞状态。

  2、參与者发生问题。协调者须要给每一个參与者额外指定超时机制。超时后整个事务失败。(没有多少容错机制)

  3、协调者发生问题。

參与者会一直堵塞下去。

须要额外的备机进行容错。

  4、二阶段无法解决的问题:协调者再发出commit消息之后宕机。而唯一接收到这条消息的參与者同一时候也宕机了。

那么即使协调者通过选举协议产

生了新的协调者,这条事务的状态也是不确定的,没人知道事务是否被已经提交。

2 三阶段提交协议(3PC)

  与两阶段提交不同的是。三阶段提交有两个修改点。

  1、引入超时机制。同一时候在协调者和參与者中都引入超时机制。

  2、在第一阶段和第二阶段中插入一个准备阶段。保证了在最后提交阶段之前各參与节点的状态是一致的。

详细流程见下图:

分布式协议之两阶段提交协议(2PC)和改进三阶段提交协议(3PC)

两阶段提交与三阶段提交的差别:

没有不论什么事情是完美的。特别是在分布式的情况下。其实。分布式在某个程度上其实是人类社会发展的一个极佳写真。由于人类社会中个体的可靠性显然比分布式系统节点的可靠性要低非常多。

三阶段提交也不完美。

可是它比两阶段好。

两阶段的问题能够这样分解:



1。协调者出错。參与者也出错;



2。协调者出错,參与者不出错;



3,协调者不出错,參与者出错;



4,协调者不出错,參与者也不出错。



显然第4种不是问题。

所以实际上仅仅有3个问题。而问题2能够通过简单地NEW一个新的协调者来解决。

问题3的错则显然正是两阶段提交协议的解决目标,所以也没有问题。有问题的仅仅有协调者出错,參与者也出错的问题1。

这种情况能够被进一步分为參与者有没有收到提交的消息。假设參与者没有收到提交的消息,那么显然将不会(或没有---从系统恢复的角度)发生不论什么真正的提交行为;而假设有不论什么參与者收到了提交的消息。那么就非常可能发生或已经发生了真正的提交行为。这个“可能”,为系统引入了不确定因素。系统没有办法解决这种问题。唯一的办法便是引入超时机制。

否则除了事务没有办法终结以外,部分參与者节点还有可能永不释放其所持有的所有数据锁。

超时机制的引入意味着将两阶段的第二阶段再度分开成两个阶段:不确定阶段与确定阶段。超时曾经是不确定操作阶段,超时以后是确定操作阶段。由于在超时发生曾经。系统处于不确定阶段。可是超时发生以后,系统则转入确定阶段。超时事件本身。则是系统进行状态转换的信号。

可是由于真正引起超时的错仅仅会在协调者与參与者同一时候出错(对于不出错但超时的情况,视为出错。即超时本身就是一种错---假设超时不“是”错,那么超时机制在这里就不可能工作---这事实上就是超时机制的逻辑根本所在。超时是一种错,所以超时能够被用来表示错。假设用一种不是错的信号来表示错。那要区分真正的错就会非常困难了)的情况下才会发生,在其他全部的情况下并不会发生,所以必须对这些情况进行同样的状态划分:准备好与提交状态。这些名词并非非常合乎它要表示的语义,但两个状态足够表达全部的情况才是最重要的事情。至于语义,则能够在人的大脑中得到正确的转化。

參考文档:https://en.wikipedia.org/wiki/Three-phase_commit_protocol_ei.cs.vt.edu/~cs5204/fall99/distributedDBMS/sreenu/3pc.html

http://my.oschina.net/digerl/blog/34139

http://blog.csdn.net/shenlan211314/article/details/7283948