数据中心灾难恢复的重要参考指标:RTO和RPO - luzhouxiaoshuai

时间:2024-02-16 07:12:26

数据中心灾难恢复的重要参考指标:RTO和RPO

用来描述和评价数据中心有很多专有参数和指标,通过这些数据可以反映出数据中心的各种运行状态,其中有两个关键指标必须有所了解:RTO和RPO。RTO和RPO是数据中心灾难恢复方面的重要参考指标。现在的数据中心对业务的连续性有苛刻要求,但是故障不可避免,一旦发生了故障就需要启动备份机制,确保业务的连续性,所以现在数据中心都有较为完善的容灾机制,RTO和RPO可以很好地反映出数据中心容灾性能如何。这两个参数是数据中心在运维过程中,一定要重点关注的指标。这个指标的好与差,是基于数据中心现有的各种综合运行情况评估得出的真实结果,反映当前数据中心在灾难恢复方面的修复能力。下面让我们来详细认识一下这两个参数的真面目。

RTO


RTO(RecoveryTimeObjective,复原时间目标)是数据中心可容许服务中断的时间长度。比如说服务发生后半天内便需要恢复,RTO数值就是十二小时。RTO具体时间长短只是从故障发生后,从数据中心系统宕机导致应用停顿之刻开始,到数据中心系统恢复至可以支持各部门运作之时,此两点之间的时间段。RTO是反映数据中心业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强,数据中心可以部署很多容灾系统,来获取最小的RTO,但这意味着投入大量资金。提升RTO的常用技术有:磁带恢复、人工迁移、应用系统远程切换,这几种技术的RTO的表现如表1所示:

RTO

部署不同的容灾技术将获得不同的RTO值,从业务连续性角度考虑,肯定希望RTO数值越小越好,尤其是很多互联网数据中心,中断几分钟都会损失数百万的成交量,这些数据中心往往不惜一切代价要确保数据中心不中断运行。应用系统的自动切换涉及到数据中心网络、服务器、存储等多方面的技术,不管数据中心任何一个位置出现了故障,这些部分都会启动软件系统进行切换,可以是设备之间的切换,也可能是集群之间的切换,还可能是异地数据中心切换,通过应用系统自动切换将业务转移到其它正常的系统中,然后再对故障设备进行排查。将故障原因找到并排除后,再将业务切回到原有系统中,应用系统切换做得好,这个过程不会引起业务的二次中断,让业务无感知切换。

RPO


RPO(RecoveryPointObjective,复原点目标)是指数据中心能容忍的最大数据丢失量,是指当业务恢复后,恢复得来的数据所对应时间点,RPO取决于数据中心数据恢复到怎样的更新程度,这种更新程度可以是上一周的备份数据,也可以是昨天的数据,这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO是反映数据中心恢复数据完整性的指标。在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。提升RPO的常用技术有:磁带备份、定期数据复制、异步数据复制、同步数据复制等,这几种技术的RPO的表现如表2所示:

RPO

RPO指标考验着数据中心数据复制能力,这并不意味单纯增加数据复制的频率即可,因为应用的高峰时段无法进行备份操作,而且备份数据本身所花费的时间也会过长,数据复制频率增加到一定程度反而会降低RPO时长。现在出现镜像技术和快照技术可以有效地改进RPO,往往可以将RPO缩小到秒级。

RTO和RPO指标并不是孤立的,而是从不同角度来反映数据中心的容灾能力。我们用下面的图1说明下RTO和RPO两个指标在数据中心故障处理过程中的关系:

RTO和RPO

从图1不难看出,RPO指标来自于故障发生前,而RTO指标来自故障发生后,两者的数值越小,就能有效缩短业务正常到业务过渡期的时间间隔,单一地提升RTO或RPO指标也可以缩减业务故障到过渡期的时间,具体从哪个指标上来改善,就要结合数据中心的实际情况分析,提升那个指标代价最小,效果更明显。当然完美的方案当然是RTO和RPO都为零,这表示当故障发生后,系统立即回复,而且完全没有数据丢失,要达到这样的目标系统设计是及其复杂的,而且造价也是非常昂贵的,也不一定有这个必要。

RTO和RPO指标对于数据中心非常关键和重要,RTO主要考验数据中心发生故障时,业务切换到容灾系统或者备份系统的能力,RPO主要考验数据中心数据备份能力,尤其是当数据中心发生故障时,仍要具备一定的数据备份能力。但数据中心也不能过分地追求RTO和RPO,因为RTO和RPO越小,意味着投资将越大。而总体投入成本越高,投资回报率将越低,从经济角度考虑,最好的容灾解决方案不一定是效益最好的容灾方案,容灾方案的总体投入和投资回报也是必须要考虑的设计指标,最佳的解决方案必须是在RTO、RPO、运维及价钱多方面,都能够达到平衡。所以要理性看待RTO和RPO,一方面我们努力设计一些新的容灾技术,另一方面还要简化容灾技术的复杂度和造价,不要一再去追求RTO和RPO指标,有时数据中心有些缺陷,也是一种缺陷美。过度追求RTO和RPO指标,甚至做到两者都是零,反而让数据中心更加臃肿,运维难度大,耗费资金过多,数据中心要避免陷入单纯追求提升两个指标的怪圈,结合数据中心实际情况,因地制宜地适当提升两个指标,才是正道。

 

RTO(Recovery Time Objective,RTO)恢复时bai间目标,指在故障或灾du难发生之后,一台电脑zhi、系统、网络或应用停止工作的最高可dao承受时间。该参数定义了最大可容忍时限,必须在此时限内恢复数据。如果说系统需要在灾难发生的12个小时内恢复,那么RTO数值就是12小时。RTO具体时间长短只是从故障发生后,从系统宕机导致业务中断的那一刻开始,到系统恢复至可以支持各业务正常运作之时,这两个节点之间的时间段。RTO是反映系统业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强。RTO=0就意味着在任何情况下都不允许目标业务有任何运营停顿。
RPO(Recovery Point Object)恢复点目标,指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点,是业务系统所能容忍的数据丢失量。例如每天00:00进行数据备份,那么如果今天发生了宕机事件,数据可以恢复到的时间点(RPO)就是今天的00:00,如果凌晨3点发生灾难或宕机事件,损失的数据就是三个小时,如果23:59发生灾难,那么损失的数据就是约24小时,所以该用户的RPO就是24小时,即用户最大的数据损失量是24小时。所以RPO指的是用户允许损失的最大数据量。这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO指标主要反映了业务连续性管理体系下备用数据的有效性,即RPO取值越小,表示系统对数据完整性的保证能力越强。
RTO和RPO指标并不是孤立的,而是从不同角度来反映数据中心的容灾能力。

 

 

 

灾难恢复能力国家标准等级 – 概念和术语 灾难:由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突…

灾难恢复能力国家标准等级 – 概念和术语 灾难:由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。 灾难恢复:为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的与功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。 灾难备份中心:用于灾难发生后接替主系统进行数据处理和支持关键业务功能运作的场所。 恢复时间目标RTO(RecoveryTime Objective):灾难发生后,信息系统或业
灾难恢复能力国家标准等级 – 灾难恢复能力等级划分标准

 

 

 

 2.1 第一级
介质存储:为各种磁介质、光介质和纸介质提供存储服务。具有高标准的介质存储环境和设施;
机房环境:根据客户的要求,灾备中心为客户准备符合国家标准的机房环境。
数据备份:完全数据备份至少每周一次。
满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第1级要求;
完全数据备份至少每周一次;
备份介质场外存放;
有介质存取、验证和转储管理制度;
按介质特性对备份数据进行定期的有效性验证;
在灾难恢复时,可享有规范运行的数据中心环境和7 x 24小时专业技术支持。
2.2 第二级:
介质存储:为各种磁介质、光介质和纸介质提供存储服务。具有高标准的介质存储环境和设施;具有7 x 24小时门禁、视像监控和保安管理;提供7 x 24小时响应的媒体存放及获取服务。
机房环境:根据客户的要求,灾备中心为客户准备符合国家标准的机房环境,包含符合灾难备份原则的机房选址、具备高抗震指标、高承重提升地板的物理建筑,具备多路专线供电线路、长延时冗余UPS系统、备用发电机组、专业精密空调系统以及气体灭火系统等各种基础设施,具备7 x24小时的严格出入授权控制和7 x 24小时的监控录像措施和严格的管理规范,以满足客户对灾难演练和灾难恢复期间的机房环境要求。
网络备份:根据客户的要求,灾备中心可为客户预留所需的通信接入端口,以满足客户在灾难演练和灾难恢复期间对通信线路的要求。
灾难恢复:一旦灾难发生,灾备中心可在约定的时间内提供灾难备份中心中所需的机房场地,客户能在此环境中,快速安装设备系统,利用备份磁带尽快恢复信息系统的运行。
技术支持和业务恢复环境:灾备中心还可为客户提供所需IT系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。
满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第2级要求;
可为客户的媒体数据提供保护;
客户节省了对机房建设及机房配套设施的大量投资和长时间的建设周期,直接获得了符合国家标准的机房环境和严格规范的机房管理服务;
提供必要的网络接入端口,大大减少客户临时申请线路的长时间周期;
户可尽快完成有关设备系统的置备和安装,迅速恢复业务;在灾难恢复时,可享有规范运行的数据中心环境和7 x 24小时专业技术支持。
2.3 第三级:
介质存储:为各种磁介质、光介质和纸介质提供存储服务。具有高标准的介质存储环境和设施;具有7 x 24小时门禁、视像监控和保安管理;提供7 x 24小时响应的介质存放及获取服务。
机房环境:为客户准备符合国家标准的机房环境,以满足客户对灾难演练和灾难恢复期间的机房环境要求。
主机备份:根据客户IT系统平台,灾备中心为客户准备符合客户要求的备份主机及外围设备,并在指定时间内确保这些设备处于硬件就绪状态,以满足客户灾难演练和灾难恢复所需的数据处理能力需求。
网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备必要的备份通信线路及网络设备,以满足客户在灾难演练和灾难恢复期间所需的通信网络要求。
灾难恢复:一旦灾难发生,灾备中心可在约定的时间内提供灾难备份中心中所需的机房场地,并提供备用主机和外围设备,使客户能够利用备份磁带尽快恢复客户信息系统的运行;同时还为客户提供必要的通信线路和网络设备,以便客户建立所需的通信网络,尽快恢复业务。
技术支持和业务恢复环境:灾备中心还可为客户提供所需IT系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。
满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第2级要求;
可为客户的媒体数据提供保护;
可以使客户在24-48小时内恢复业务的运作;
节省客户在备份机房建设和备份主机设备等方面的大量投资;
提供备份网络接入设备和网络接口,可以帮助客户迅速恢复服务渠道和
分支机构的业务运作;
在灾难恢复时,可享有规范运行的数据中心环境和7 x 24小时专业技术支持。
2.4 第四级:
数据备份:灾备中心可根据客户信息系统特点,采用业界先进的在线数据备份技术,建立面向客户的数据备份系统,每天定时或批量传送备份数据,为客户实现重要业务数据的远程备份及其运行管理服务;可支持S/390、Tandem、AS/400、RS/6000、HP、SUN、PC Server等各类IT系统平台。
机房环境:为客户准备符合国家标准的机房环境,以满足客户对灾难演练和灾难恢复期间的机房环境要求。
主机备份:根据客户IT系统平台及数据备份要求,灾备中心为客户配备符合客户要求的备份主机及外围系统,并对处于运行状态下的主机及外围系统进行日常维护,在满足了客户对灾难演练和灾难恢复所需的数据处理能力要求的基础上,进一步满足了客户对业务恢复时间的要求。
网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备必要的备份通信线路及网络设备,以满足客户在灾难演练和灾难恢复期间的通信网络要求。
灾难恢复:一旦灾难发生,灾备中心已保留有客户生产系统在线备份的最新业务数据,客户可在此备份数据的基础上,使用灾备中心的机房场地、备用主机及外围系统,迅速恢复信息系统的运行;各服务渠道及各分支机构可在建立与备份中心的网络连接后立即恢复业务运作,进一步提高了客户业务恢复的速度。
技术支持和业务恢复环境:灾备中心还可为客户提供所需IT系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。
满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第3、4级要求;
节省客户在备份机房建设和备份主机设备等方面的大量投资;
享有7 x 24小时备份中心的专业技术支持和专业规范长期运营队伍支持;
客户数据得到在线电子传输方式的备份,可使客户数据的丢失范围控制在24小时之内;
在备份中心为客户建立了备份的主机系统及网络系统,并有快速恢复措施,业务恢复时间可控制在8~24小时之内。
2.5 第五级:
数据备份:灾备中心可根据客户信息系统特点,采用业界先进的远程数据备份技术,建立与生产中心宽带通讯线路,采用同步或异步方式实时在线备份数据,并可以通过两阶段提交等先进技术手段来进一步保证交易数据的完整性和有效性,为客户实现重要业务数据的远程实时备份和客户的业务连续性提供强有力的保护,并为数据备份系统提供运行管理服务;可支持S/390、Tandem、AS/400、RS/6000、HP、SUN等多种IT系统平台。
主机备份:根据客户IT系统平台及数据备份要求,灾备中心为客户配备符合客户要求的备份主机及外围系统,并对处于运行状态下的主机和外围系统进行日常维护,在满足了客户对灾难演练和灾难恢复所需的数据处理能力要求的基础上,使客户业务恢复时间进一步的缩短。
网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备必要的备份通信线路及网络设备,并可按不同服务渠道建立备份通信网络系统,以满足客户在灾难演练和灾难恢复期间的通信网络要求。
灾难恢复:一旦灾难发生,灾备中心已保留有客户生产系统实时备份的最新业务数据,客户可在此备份数据的基础上,使用灾备中心的机房场地、备用主机及外围系统,立即恢复信息系统运行;各服务渠道及各分支机构也可快速切换到备份中心的通信网络系统,迅速恢复业务运作,大大缩短了客户业务全面恢复的时间。
技术支持和业务恢复环境:灾备中心还可为客户提供所需IT系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。
满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第5级要求;
节省客户在备份机房建设和备份主机设备等方面的大量投资;
享有7 x 2 4小时备份中心的专业技术支持和专业规范长期运营队伍支持;
客户数据得到在线实时传输备份,可使客户数据的丢失范围控制在秒级到几小时之内;
备份中心主机与备份网络均实时运行和处于随时就绪状态,业务恢复时间可控制在宣告灾难后几十分钟至几小时之内。
2.6 第六级:
数据备份:灾备中心可根据客户信息系统特点和需要,采用业界先进的远程数据备份技术和集群技术,建立与生产中心宽带通讯线路,通过先进的集群技术和远程数据备份技术,实现备份中心与生产中心的系统负载均衡和数据实时同步更新,以实现远程集群高可用性服务和自动灾难切换,为客户实现重要业务最高等级的业务连续性服务,并为备份系统提供运行管理服务;可支持S/390、UNIX等系统平台。
主机备份:根据客户IT系统平台及数据备份要求,灾备中心为客户配备符合客户要求的备份主机及外围系统,并对处于运行状态下的主机和外围系统进行日常维护,满足客户对灾难演练和灾难恢复所需的数据处理能力的高标准要求。
网络备份:根据客户分支机构或服务渠道的通信网络需求,灾备中心可为客户配备实时连通的备份通信线路及网络系统,并可提供多家电信运营商的备份通信线路,以满足客户在灾难演练和灾难恢复期间对通信网络的高可靠性要求。
灾难恢复:一旦灾难发生,灾备中心的远程集群系统将利用实时最新业务数据自动进行系统切换,客户的分支机构及服务渠道也可自动切换到备份中心的网络系统,在短时间内恢复客户信息系统的运作,避免了客户业务及对外服务出现停顿。
技术支持和业务恢复环境:灾备中心还可为客户提供所需IT系统的技术支持服务、符合条件的介质存储场地及业务恢复运作的工作环境及各类办公后勤环境。
满足国标《信息系统灾难恢复规范》(GB/T 20988-2007)灾难恢复等级第6级要求;
节省客户在备份机房建设等方面的大量投资;
享有7 x 24小时备份中心的专业技术支持和专业规范长期运营队伍支持;
客户数据得到实时同步更新,保证业务数据的一致性和完整性;
备份中心的远程集群系统及网络系统可自动进行负载均衡和系统切换,业务恢复时间可控制在分钟级。
在容灾备份系统中,广道容灾备份系统已达到“国标GB/T 20988-2007规定的灾难恢复能力等级指标”第六级(金融机构等重要信息系统要求5级以上)。