优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

时间:2022-11-04 16:17:00

2017中国开源产业峰会暨中国国际软件博览会分论坛,优云软件叶帅在开源云计算技术创新论坛发表了《“互联网+”时代的云数据中心运维思辨》的主题演讲,本文根据演讲内容整理而成。

优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

我为大家分享一下目前运维的一些发展态势,刚才主持人提到在云环境下或者是“互联网+”的环境下如何更好地做好运维管理是整个行业里面每个人都在考虑的一个问题,那么接下来我就进入分享的议题,就是“互联网+”的时代下云数据中心运维管理方法论和思辨。

首先,还是要先和大家分享一下我对整个行业发展的一个理解和认知,那么随着德国的工业4.0理念的推广,我们从最开始的1.0的蒸汽时代,到电子化时代,信息化时代,以及最后的这种智能化时代,这其中人类科学技术是得到了一个飞速蓬勃的发展。但是,IT参与其中是在工业3.0到工业4.0这个期间,就是整个生产经营信息化到后来的智能化这样的时间跨度里。那么从IT运维的生产信息化,到数字化,以及接下来的“互联网+”或者是移动互联网,甚至是未来整个智能化的趋势,我们企业面临的情况就是这样的一个浪潮,适应这样的洪流就必须要做出一些调整,那么这种调整就会带来一个什么样的问题呢?如果我们随波逐流地选择了一定的解决方案或者选择一定的思路,那么或多或少都会有这样或那样的不满足,尽管如此,整个项目的运维管理还是能够稳步的运行;但是如果选择大破大立推翻重做这样的一种方式,那我们不仅要付出更多的努力,还需要去承担比较多的资本风险、人员风险、时间风险等等。

优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

所以IT运维在这样的一个从信息化到“互联网+”到未来的一个智能化,我们如何能够用更有效的时间、更有效的资源成本来去做好IT运维是现在要关注的一个事情。

那么在讲如何更好地做好IT运维之前,我们还是要为IT运维正名,在很长一段时间之内IT运维都被大家狭义的理解为就是做好对象之间的管理,对象之间的持续、可用、高效的交付就是IT运维。其实这个观点并没有错,因为我们刚才提过工业技术的发展中最为关注的是工具的演进和发展,那么IT管理之初,运维也是关注工具层面的内容,比方说我们最开始关注的网员管理,后续再关注相关的一些应用、数据等等,这些其实都是对工具的管理。但是随着工具的演进和完善,我们会发现工具之间的管理已经不能够满足我们对IT运维的一个完全覆盖和支持,因为工具的一个最大化之后,我们势必要考虑到两个问题,第一个问题是如何的做好平台化,如何做好工具之间的一个互动。第二个问题就是在做好平台化之后,IT运维是有人员参与的,有人员参与如何能够再去做好人与工具,人与人之间的互动。

那么到这个阶段,IT运维就从最开始被认为是做好工具、对象的管理现在逐渐衍生成我们需要做好平台层面的建设,做好整个的人员之间或者是整个IT运维生态层面的管理,那这个就是我们要为IT运维正名的第一点,就是IT运维在当下一个数字化或者在未来智能化、“互联网+”的这样一个时代,不再单纯的是一个工具层面的管理,更多的是一个平台,更多的是一个整个顶层的,人员之间互动的一个管理。优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

那么第二个,我们既然已经提到了IT运维不是一个工具层面的管理,那么IT运维更多的是一种生态,更多是一种社会形态的管理,那么社会形态就带来两个问题,第一个问题是生产力,第二个问题是生产关系。那我们生产力和生产关系如何体现在我们当前的一个企业文化或者当前的企业现状里呢?在IT运维领域我们过去的生产力就是管理这些系统、对象以及采取何种技术和工具去管理,那么过去采用竖井式管理来持续的管着IT资源对象。现在随着云化或者容器化对象的一个引入,我们更多是要在做好基础的资源管理情况下,还要做好我们应用层面、数据层面的管理。那么生产力发生了改变,它也会带来生产关系和生产的一个最终结果的改变。

生产关系在IT运维领域的最直接的一个投影就是我们IT运维的方法论。那么,我们最开始如何来做好稳定架构下IT管理?用ITIL个最佳实践去做稳定架构下的一个管理。那么现在云化、大数据等技术的引入,我们如何用ITIL这些概念去更好的适配、满足瞬时产生、敏捷产生、顺发资源产生的这样的一个IT管理诉求,那这其实就是我们当下ITIL在很多运维管理的企业或者是稳态企业不能够完全应对的一个现状。那么随之而来引入DevOps这样的一个伴随着研发、快速交付、持续交付的方法论。


优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

在IT运维领域里面是不是说纯ITIL或者纯DevOps就能够完全地满足用户或者整个行业客户的需要呢?其实我们参与了很多项目建设,无论是企业,还是部委、军队等等,我们发现大多数情况下,并不是单一的方法论就能够满足用户的一个整体需求。尤其是现在既有稳态架构,也有云化、容器化的敏态架构下,更是需要一种双态的融合,那么这对于传统的稳态架构更多的是采取一种实施管控、高稳定的这种方式来做管理,那么对于云化、虚拟化、容器化的敏态架构下,我们更多采取的是一种持续交付、敏捷、快速等等这种方式来去帮助用户进行更多的一个持续的产出。

那么如何能够帮助用户从传统的稳态架构衍生到敏态架构?如何帮助用户跨过这个鸿沟?这其实就是我们广通软件在做整个IT运维管理软件的时候特别加入了一些互联网思辨的一些内容,需要一个能够持续演进的一个IT运维方法论,广通软件提出了一个新的理念,这个理念就叫做软件定义运维。大家参加这个开源大会听了太多的软件定义,比方说软件定义网络、软件定义存储、软件定义计算资源、软件定义数据中心等等,那么什么又是软件定义运维呢?类似软件定义虚拟化一样,软件定义运维就是通过平台化、组件化的这种方式来重塑当前运维场景和需要,那么行业用户可以通过运维的这个诉求或者原始的这种需求,按序或者是按组件的方式,从运维基础平台中拿到所需要的数据,这个就是我们从整个概念上来重新打造、重新定义当前IT运维的一个方法,软件定义通过一个基础的运维管理平台,按照标签,这种标签包括场景化、标准化、自动化、可视化以及智能化来为用户提供他们所需要的一个内容。


优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

那么用户如何能通过软件应用来实现双态或者实现“互联网+”的云数据中心的运维管理呢?那么我们通过这么几个场景来为大家介绍一下,首先第一个就是大家非常熟悉的资产管理,就是所谓的集中的资产管理,那么在传统的稳态架构下,资产管理更多的是侧重IT资产的基础架构,以及种集中化的这种管理,通过人工的方式来去记录、审核每一项资产变更,为什么会有这样的一个情况呢?因为我们说传统的资源管理或传统的IT架构并不复杂,它有二三十台服务器或者有不到一百台服务器就是一个比较大的庞大系统了,那么现在的一个“互联网+”或者一个敏态架构下,我们发现这种资源的申请、变化都是非常频繁,那么我们更多的不再关注于传统架构,更多关注容器以及数据架构下,整个的IT资源是什么,IT架构是什么样的。


优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

第二个就是通过划组的方式,通过成立工作组来去按组分拆整个资源管理的过程。以前,资源管理的任务是一两个人管二三十台服务器,那么如果一个系统有一千多台服务器,可能需要50多人去维护和管理,但是数据中心的人员配置可能还只有十个人或者还有几个人,那么他们就需要按照组的方式来进行一定的管理,这样就会产生另外一个问题,就是没有人如何能够去做好这些事情,这就需要通过一定的自动化手段,所以说对于现在敏态架构下,资源数量跟资源发生变化这个频度非常高,势必要通过一定的自动化的手段来去做资源的发现,所以说当前的敏态架构是关注数据应用、资源分组来去做好整体的资源导入,不仅有配置管理员,也有库管审计人员,最后配置管理能够完全应用出来,它会有两个方向,第一个方向配置管理一定要以一个资产或者一个资源分组的方式去进行一定的配置数据的输出;第二个它的输出形式不再是过去的一张表或者单纯的一些数据数据的这种矩阵,它更多的能够以一个平台化、数据的OpenAPI方式来为更多的业务系统持续不断推送数据,其他的系统也到我的配置管理里面去读数据,这是配置管理在双态环境下的一个场景。

优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

那么对于这个场景举一个例子,为大家介绍一下整个配置管理从数据从无到有到最后数据消费的一个全生命周期的过程。那么首先第一个,配置管理是由管理员去创建当前的面向于基础资源架构、应用容器、业务方面的这样一个IT资源模型,那么创建好模型之后,就根据模型的内容尽可能通过自动发现的手段,能够主动上报和进行全方位的一个扫描,之后就对网络进行一定的判断,比如说这两千多台服务器中有一千台是windows,有一千台是Linux,那么剩下的几百台或者是还有几个比较少属于一些小众的这个OS等等,那么当发现这些设备之后会对这个设备进行详细判断,就是发现哪些设备上有Oracle或者哪些设备制作了虚拟化,就会对它进行一个标识,标识之后就构建了一个基础的配置管理仓库,通过一个自动化或者流程或者通过其他的任务驱动来保证整个配置管理的数据持续不断的输出,那么数据消费,第一方面是面向于我们的一个实时监控,当产生了一个资源或者容器资源的时候,通过配置管理定位到这个资源为哪个系统提供了基础数据服务之后,那么对它进行一定的监控手段的配置;第二个是自动化的纳管,可以判断自动化应用以及自动化版本等等一些发布。第三是我们的一个合规性检查,第四是集群环境一致性检查。

那么合规性跟集群环境一致性检查更重要的是体现在我们接下来的一个例子,前不久发生了一个勒索病毒,在勒索病毒的这个全球性的攻击浪潮下,很多行业都不幸的被打的满目疮痍。那我们一起来看一下,比如说*或者银行的一些移动终端,当勒索病毒产生之后,首先是要去判断哪些windows服务器容易被勒索病毒攻陷,比方说xp、window8等等,我们就会定义这些windows服务器都用了哪些应用谁在管,接下来会进行了一个广范围的撒网之后收集到了寥寥数张的一个excel残本,之后进行逐项清点,清点之后去关闭端口,然后进行程序的手动发布和整个应用的重新部署,这个是我们在*经常面临的一个情况。

在勒索病毒发生的当天,*人员成立一个专项的小组,花了三天时间抽调了20多个人,包括一些驻厂人员就把一百多台服务器进行逐项的排查,清点。那么在一个信息化相对来说比较好电网行业,它们就不一样了,通过整个配置管理进行全网范围的一个扫描,扫描到哪些设备是服务器以及哪些设备是windows服务器,那么这些windows服务器上面运行了哪些应用?这些应用为了哪些业务服务,定位到这些windows服务器之后,通过了这个人工或者自动的手段,快速的去把整体的服务进行一定的升级,最后保证我们整个的一个版本是可控的,所以当下一次安全生产危机到来的时候,在两个不同的部门,两个不同组织形态的这样的一个IT管理模式下,我们看传统的体系还是按部就班去执行,又是几天抽调了几十个人去做。而在一个相对信息化程度比较不错的企业,用几个人去做这样的一个快速高效的恢复,这其实是一个值得我们深思的事情,那以上主要就是面向于资源管理的介绍。


优云软件叶帅:“互联网+”时代的云数据中心运维思辨(上)

第二个就是非常常见的,在IT运维领域最被大家广泛接受,其实就是监控告警。我们发现随着云化或者容器化对象的引入,监控告警也不简单,监控报警也跟过去有了不同,不同点在于过去的这种传统稳态架构下,对于整个监控报警或者整个关注对象来讲,它更多地关注物理设施,网络,基础架构以及应用,这个应用是以进程或者日志文件为单位的一个关注对象。采取一个分钟级的或者小时级的方式来去对这些对象进行维护,这是我们传统架构下比较常见的内容。比如说我们在09年做的中国联通的一个系统,他们就是通过这样的业务监测的方式来去模拟在线充值系统与一卡通系统,一分钟或者五分钟交易处理的一个情况,随着云环境或者容器计算资源变得更加复杂,敏态架构下关注的对象就不单单是稳态环境下的这些技术资源了。我们更关注的是云虚拟化容器对象应用服务调用的情况,甚至是我们最终的用户体验,以互联网公司业务特征为代表。

比如说我们在16年的12月,支付宝推出了一个圈子,推出以后产生了一些负面效应,很多用户在支付宝上进行操作或者留言的时候,支付宝就会及时发现和处理,这其实就是通过了整个用户体验,去进行详细的用户回溯,进行这种数据的一个处理和还原,这是我们整个的一个敏态环境下的一个监控管理范畴。