智能运维

随着华为云规模高速增长,我们看到背后是RegionPOD、服务器规模的迅速扩张。伴随大量的服务器上线,大量的监控指标、告警和事件给运维带了极大的挑战。以基础网络为例:每月万级别的紧急重要告警和无数的次要告警及提示告警,单纯依靠人工已经无法满足运维需求。而通过网络监控平台收集并记录各项指标,提升故障诊断效率,缩短问题闭环时长,则显得越来越紧迫。

为此创新部算法能力中心在网络域针对日志、PKI异常检测,告警压缩和根因推荐等运维算法展开研究。本期将对这些算法研究的进展逐一向大家进行介绍。

zhinengyunwei.png

SRE智能运维算法地图及研究进展

1. 告警压缩算法

常用的异常告警算法基于单个曲线的、朴素的阈值规则。这种方案不仅易产生大量无效告警,而且管理不易扩展、异常场景覆盖不全、准确率低。为此,需要考虑曲线形态,定制更精准、鲁棒的异常检测器,并关联形成面向人工可处理的事件。为了同时平衡告警的准确性、鲁棒性、实时性且端到端面向人工处理,我们通过聚类算法将告警曲线聚类进行降维并配合异常检测器,实现精准检测,并利用全局信息将独立的异常告警进行关联。实现有效告警压缩率达到XX%,准确识别有效告警,降低漏告率XX%,成功支撑运维效率的提高。

2. 广域网根因分析算法

公网质量探测,数据量大,对应的告警多,如果每个告警都需要人工分析,费时费力,另外由于广域网的特殊性,定位涉及整个云路径,链路长、设备多,需要同时排查分散在多个系统上的XX余个指标,且各个指标的组合判断逻辑复杂,导致根因定位非常复杂。我们通过对原始数据和告警分析,并根据业务特性,结合多个指标的特征情况,通过规则树的方法,成功将定位时长降低XX倍,大大提升运维效率。

3. 数字孪生

随着公有云业务的不断增长,华为云基础设施网络规模也在不断扩大,但物理网络相关数据处于分散、割裂、不一致或缺失的状态,甚至存在人工维护的Excel信息。没有人了解全局网络配置信息和状态信息,不同部门或组织的网络视图甚至不统一,数据不一致可能导致网络规划、网络变更、网络运维等场景产生问题,甚至导致网络故障。

数字孪生旨在以网络模型为骨架,以网络数据为血液,建立动态准确的网络数字孪生模型。基于物理网络的数字孪生,可以支撑网络规划、网络变更、网络运维等网络生命周期阶段。

基于数字孪生模型已应用到以下两个场景,网络规划场景的应用正在实现中:

1) 针对部分网络数据不准确的问题,基于数字孪生模型,利用机器学习算法可以有效发现非标架构与配置,发现异常数据,并提供推荐修复意见,准确率可达XX%

2) 在智能运维场景中,精细化异常发现与根因定位必须依赖于关联知识。因此,将数字孪生模型包含的丰富先验知识,与机器学习算法结合,可以有效地实现告警聚合和根因推荐,告警聚合压缩率可达XX%

4. 日志分析

随着全球华为云规模的不断扩大,网络数据中心的设备规模与整体网络流量的复杂度不断提高。通过智能日志分析与多源告警关联方法降低运维人员的工作复杂度并提高物理设备的使用效能显得尤为紧迫。我们通过AI数据分析的方法,从数据中心虚拟网络的日志及告警数据中挖掘典型的故障模式并建立模型,从而构建故障知识库,辅助在线告警聚合与故障定位。

1)   虚拟网:提出了基于半空间森林的在线异常检测模型,多个公开数据集进行评测,相较于流行的isolation forest算法,新模型的计算精度平均提升XX%

2)   物理网:提出了基于NLP的双向LSTM语义模型,在一个公开数据集以及两个现网数据集中进行评估:在下一状态预测任务中,当前模型在公开数据集、第一版现网数据、第二版现网数据的评估精度分别为XX%、XX%、XX%。预计XX上线故障诊断平台,实现全局故障的量化分析。

wuliwang.png

物理网基于NLP语义异常检测方案