AIOps,SRE工程师手中的利器

时间:2022-06-01 20:20:23

AIOps,SRE工程师手中的利器

基础设施与网络层面发生的问题,必须以闪电般的速度加以解决,在理想情况下,最好能让最终用户或客户完全感受不到问题的发生。而随着全球经济体系乃至社会结构的数字化转型,对事件管理能力的需求也变得愈发紧迫。

但是,尽管现代应用程序能够快速响应客户需求,但其自身的更新与修复又提出了新的速度要求,同样对基础设施可靠性形成巨大压力。一旦出现性能问题甚至数字服务中断,对现代应用程序造成的影响反而比传统应用更严重。

在管理基础设施可靠性方面,选择正确工具无疑是达成目标的重要前提。对于站点可靠性工程师(SRE)及其他员工而言,相当一部分云原生方法确实太过复杂、难以理解。因此,除了良好的可见性之外,他们还需要建立起判断问题优先级、迅速发现故障并加以解决的能力。

AIOps的意见也正在于此。随着软件与基础设施资产的迅猛拓展,AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持,保证在问题扩大化、复杂化之前及时将其解决。

值得注意的是,随着应用程序与基础设施的蓬勃发展,AIOps也开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据,判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题,算法与机器学习工具随后会被整合至数据之内,借此充实关于现状的情报,甚至有望自动高效地完成事件响应。

着眼于现实场景,以下五种AIOps应用方法值得关注:

方法一 检测事件

这也是AIOps扩展工具包的核心用例,帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象,而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法,AIOps能够及时发现预警信号,帮助运营团队在客户体验受到影响之前就及时介入。

方法二 减少及消除噪音

事件响应当中,警报疲劳一直是个大问题。警报的持续涌出往往令员工的神经变得麻木,难以发现真正紧急的状况。理想情况下,我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级,借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。

方法三 结合背景

突发事件往往非常混乱,而且形势也瞬息万变。过多信息会导致团队迷失方向,为此必须为运营人员提供背景信息,帮助他们找到正确的方向。AIOps能够自动对事件做出映射,同时建立起全面了解。除了理解以外,背景信息在事件解决方面同样有着重要作用。

方法四 提升智能化水平

AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等,共同为AIOps提供良好的训练数据,进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累,模型智能化程度将持续提升,最终提供更具针对性的关联、洞见与建议。

方法五 整合数据、统一团队

任何来源的事件数据,都会与企业的现有事件管理工具及工作流集成在一处。输入的数据越多,机器学习模型的训练度也就越高,产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据,通过背景信息丰富数据内容,并将结果通报至相关团队或响应人员手中,以供各个事件管理团队加以使用。以此为基础,各团队将不必把时间浪费在不同工具的往来切换当中。

对于尚未开始使用AIOps的组织而言,这项工作听起来似乎繁复无比。没错,AIOps确有一定门槛,但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。

首先,考虑最适合自身需求的用例。缩小思考范围,从小处入手开始学习,并在测试中不断成长。

其次,保证工作流程的透明化。人们天然会抵触变化,所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。

最后,为囊括AI及ML元素的新型IT运营体系做好准备。如今,采用AIOps技术支持运营体系的组织越来越多,相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。