阿里巴巴发布智能运维故障管理AI+生态计划

时间:2024-04-03 20:54:40

摘要: 为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。

阿里巴巴发布智能运维故障管理AI+生态计划

       6月7日,2018云栖大会·上海峰会在上海世博中心举行。本次大会以“驱动数字中国”为主题,聚焦人工智能、金融、零售、IoT等行业,聚焦产业生态新发展,展现产业链上下游新应用,推动云端新融合,降低行业企业信息化成本,助力上海经济新发展。大会全面展现数字化魅力,如何利用“数字”带动企业转型、促进业态发展、创造产业新动能,激发数字经济新引擎。

  对于当前IT运维圈子里最火爆的AIOps概念,本次大会也设立了主题分会场,共同探讨人工智能在IT运维领域的应用与实践。

 

开放“AI+”生态计划,回馈社会


  阿里巴巴全球运行指挥中心(GOC)掌门人沈乘黄首先分享了“智能运维在阿里巴巴线上故障管理领域的应用经验”。沈乘黄站在集团业务连续性保障的角度,讲述了GOC团队如何通过机器学习应对每秒数千万数据的处理,把握阿里每一项业务的运行状况,实现对近百个技术团队、数万名研发人员的应急信息实时互联,让一切线上问题无所遁形,让所有阿里技术团队令行禁止。

阿里巴巴发布智能运维故障管理AI+生态计划

  同时,沈乘黄正式宣布,为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。

 

智能算法,为业务稳定连续运行保驾护航


阿里巴巴高级技术专家王肇刚由浅入深分享了“全球运行指挥中心(GOC)团队提供的智能算法模块的技术实现与应用心得”,讲述了如何在复杂的业务场景下迅速发现异常事件,并从千万个指标中寻找关联事件,最终确定异常事件的根源,并通过应急、通知、恢复、复盘、演练等一系列动作完成故障管理的闭环,最终确保业务稳定连续的运行。

阿里巴巴发布智能运维故障管理AI+生态计划

阿里巴巴发布智能运维故障管理AI+生态计划

阿里巴巴发布智能运维故障管理AI+生态计划

单指标多维下钻分析

当业务指标总量异常出现时,准确地智能定位到出现异常的分量或分量组合。

 阿里巴巴发布智能运维故障管理AI+生态计划

多指标相关性分析

•       当指标异常时,动态发现有相似下跌形态的相关指标,为原因定位提供重要线索。
•       通过离线分析,发现业务报警之间的关联规则,当单业务异常时能够对其它业务进行提前预警。

阿里巴巴发布智能运维故障管理AI+生态计划

可疑应用/事件分析

•       自动基于运维数据仓库进行相关应用/事件检索,锁定怀疑范围。

•       自动根据指标异常和事件相关性进行推荐排序,筛掉无关事件。

阿里巴巴发布智能运维故障管理AI+生态计划

开放合作,为用户带来更多价值

      大会所在的世博中心曾经是上海世博会的会议中心,秉承着平等开放、合作共赢的理念向全世界展示了中国的新面貌,本次云栖大会也正传承了开放合作的理念,首批“AI+”生态合作伙伴涵盖了网络分析、应用交付、云计算服务、日志分析、业务运维等不同领域。

其中成都科来软件有限公司技术副总裁龙成、深信服科技股份有限公司研发部总经理邱亮、上海驻云信息科技有限公司执行总监李俊涛、北京优特捷信息技术有限公司(日志易)技术总监饶琛琳、云智慧(北京)科技有限公司高级技术顾问杨路分别在其各自领域就智能运维的落地实践,以及与阿里巴巴智能故障管理平台结合后为客户带来的价值提升做了分享,让企业在智能化升级的过程中有更多的方案选择。

阿里巴巴发布智能运维故障管理AI+生态计划

      分会场上技术专家的精彩演讲,得到了广泛好评,智能运维等词成为会场热议话题。不少参加会议的专家和观众表示,演讲很有收获,从技术和应用的层面对AI在运维领域的应用与实践有了更多更深的了解,也希望未来能够了解更多智能运维领域的技术和发展。 

原文链接