AIOps，SRE工程师手中的利器

基础设施与网络层面发生的问题，必须以闪电般的速度加以解决，在理想情况下，最好能让最终用户或客户完全感受不到问题的发生。而随着全球经济体系乃至社会结构的数字化转型，对事件管理能力的需求也变得愈发紧迫。

但是，尽管现代应用程序能够快速响应客户需求，但其自身的更新与修复又提出了新的速度要求，同样对基础设施可靠性形成巨大压力。一旦出现性能问题甚至数字服务中断，对现代应用程序造成的影响反而比传统应用更严重。

在管理基础设施可靠性方面，选择正确工具无疑是达成目标的重要前提。对于站点可靠性工程师(SRE)及其他员工而言，相当一部分云原生方法确实太过复杂、难以理解。因此，除了良好的可见性之外，他们还需要建立起判断问题优先级、迅速发现故障并加以解决的能力。

AIOps的意见也正在于此。随着软件与基础设施资产的迅猛拓展，AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持，保证在问题扩大化、复杂化之前及时将其解决。

值得注意的是，随着应用程序与基础设施的蓬勃发展，AIOps也开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据，判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题，算法与机器学习工具随后会被整合至数据之内，借此充实关于现状的情报，甚至有望自动高效地完成事件响应。

着眼于现实场景，以下五种AIOps应用方法值得关注：

方法一检测事件

这也是AIOps扩展工具包的核心用例，帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象，而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法，AIOps能够及时发现预警信号，帮助运营团队在客户体验受到影响之前就及时介入。

方法二减少及消除噪音

事件响应当中，警报疲劳一直是个大问题。警报的持续涌出往往令员工的神经变得麻木，难以发现真正紧急的状况。理想情况下，我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级，借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。

方法三结合背景

突发事件往往非常混乱，而且形势也瞬息万变。过多信息会导致团队迷失方向，为此必须为运营人员提供背景信息，帮助他们找到正确的方向。AIOps能够自动对事件做出映射，同时建立起全面了解。除了理解以外，背景信息在事件解决方面同样有着重要作用。

方法四提升智能化水平

AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等，共同为AIOps提供良好的训练数据，进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累，模型智能化程度将持续提升，最终提供更具针对性的关联、洞见与建议。

方法五整合数据、统一团队

任何来源的事件数据，都会与企业的现有事件管理工具及工作流集成在一处。输入的数据越多，机器学习模型的训练度也就越高，产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据，通过背景信息丰富数据内容，并将结果通报至相关团队或响应人员手中，以供各个事件管理团队加以使用。以此为基础，各团队将不必把时间浪费在不同工具的往来切换当中。

对于尚未开始使用AIOps的组织而言，这项工作听起来似乎繁复无比。没错，AIOps确有一定门槛，但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。

首先，考虑最适合自身需求的用例。缩小思考范围，从小处入手开始学习，并在测试中不断成长。

其次，保证工作流程的透明化。人们天然会抵触变化，所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。

最后，为囊括AI及ML元素的新型IT运营体系做好准备。如今，采用AIOps技术支持运营体系的组织越来越多，相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。

秒客网

AIOps，SRE工程师手中的利器

相关文章