华为云Stack_智能化主动链路监控系统_云计算_网络_运维

华为云计算云知识华为云Stack智能化主动链路监控系统

普惠上云 2核2G2M云服务器

38元/年

云服务器秒杀 X实例-4核8G5M

338元/年

Flexus L实例 2核2G3M云服务器

68元/年

网站搭建买3年送2年

1元/天

华为云Stack智能化主动链路监控系统

时间: 2023-02-01 16:57:14

云计算混合云

猜你想看：

实时语音识别云服务器配置 CDN是什么意思视频点播加速什么是云桌面

华为云Stack 面向政企市场，为了监控虚拟链路质量，提供了智能化的主动链路监控系统，客户不需要理解复杂的云网络/的内部原理，只需要傻瓜式的启动这个系统，主动链路监控系统能够根据项目业务场景和客户组网，自动计算需要监控的虚拟网络对象，主动规划学习监控路径，自动上报网络监控指标和告警网络故障。

通过主动链路监控，可以及时发现前面案例中的各种故障，故障发现时间从不确定走向确定，故障定界定位时间从小时级变成分钟级。

一、黄金指标：丢包率和时延

网络监控的指标很多，但是最能代表网络质量的是丢包率和时延两个指标。丢包率和时延是网络转发能力和业务质量体验的最直接指标，丢包会导致报文重传，会引起网络震荡，对业务的影响表现为业务不平稳，有抖动。时延高会导致网络传输慢，导致页面卡顿、应用反应迟缓。

丢包率和时延的检测需要通过主动或者被动的方式来动态测量，不能通过直接查询或者采集交换机或者服务器的某个指标获取，相关的网络测量技术有很多，在此不做过多赘述。

为了获取到设备级、Fabric级、整个DC和跨DC的时延和丢包率指标，各个厂家都设计了自己的工具系统，比如微软的Pingmesh，Facebook的NETNORAD，百度的NetRadar，阿里的vTrace等，都是为了监控整个数据中心网络质量的系统方案，其中最重要的输出指标就是丢包率和时延。

二、链路检测根技术

黑盒检测方法是计算时延和丢包率最常用，最简单的方法。

传统的黑盒拨测通常只关注最后拨测的结果通或者不通，如图1所示，通过发送ICMP request和TCP SYN，关注 ICMP replay和TCP ACK报文是否有回应，发送和接受报文间RTT时延，由此计算整条探测路径的丢包率和时延。如果中间某个交换机或者网元有了故障，并且网元已经自我隔离了，对外的服务质量并没有中断，这种情况下通过普通的黑盒探测是无法探测的。

基于染色报文的拨测常用于出现问题后对问题进行复现时候的故障定界定位，如图2所示，在每个网元，包括物理网元和软件网元，都具备对染色报文进行镜像和统计的能力，可以精确定位每个监测点接收和发送的报文数，以及每个点的时延信息，是一种高精度的黑盒检测方法。

基于染色的拨测方法，我们主动链路监控进行主动配置探针，主动编排策略，达到覆盖所有网元节点的探测目的，可以监控网络服务经过所有网元的服务可用性，同时得到全量网元的时延和丢包率指标。

主动链路监控以染色报文的拨测作为测量方法，可以做到比传统黑盒监控更精细化的监控效果，不仅监控云服务的质量，更能覆盖的所有网元的转发质量，更大化的保障租户业务流质量。

图1 传统黑盒拨测

图2 基于染色报文的拨测

三、系统架构

主动链路监控整体系统架构如图3所示，主要包括Server端和Agent端。Server端用于根据云服务维度和监控场景生成策略列表和创建拨测任务，agent端用于报文注入和镜像报文收集。

图3 主动链路监控系统架构

监控场景：包括日常监控场景和升级监控场景，日常监控是一个持续监控的过程，主要侧重于监控面广，持续迭代和优化；升级监控，侧重于快速给出某个网络服务的监控结果，需要针对某个网络服务进行快速迭代和升级前后对比。

网络拓扑：数据中心的网络拓扑，包括所有的交换机和所有的计算节点，软件网元的网口连接信息。

策略列表：包含所有要探测的链路的集合，一个策略对象是一个五元组信息，包括源探针IP，目的探针IP，协议，源端口和目的端口。

拨测Controller：按照策略列表下发拨测任务。

拨测Analyzer：收集拨测结果，并根据拨测结果对策略进行正向反馈优化，策略优化后可以覆盖更全的链路。

拨测Agent：对探针注入染色报文，并收集OVS的镜像报文。在所有的计算节点和网元节点部署。

ERSPAN：物理交换机通过ERSPAN的方式，把染色的拨测报文镜像到Analyzer，供Analyzer进行虚拟网络和物理网络的统一路径检测和分析。

四、关键技术

亮点1：策略优化

按照用户输入的监控场景和云服务列表，Server会生成一个默认的策略列表，但是每个客户现网的情况都不尽相同，初始创建的策略难点在于如何覆盖所有的网元，比如下面的图4，网元1_3和网元2_3并没有被探测到，达不到链路覆盖的效果。

我们基于染色报文的拨测方法，提出策略优化的方案，Analyzer得到拨测结果后会进行分析，不断的迭代策略的五元组信息，按照不断的反馈和补偿，可以达到一条策略能够覆盖所有网元的目的，如图5所示。策略从图4的结果到图5的结果就是一个策略优化的过程。

策略优化还有另外一种结果，那就是尝试了所有的可能后，始终无法覆盖到某个网元，比如图6中的网元1_3，出现这种情况我们有理由怀疑，网元1_3业务出现某种问题后触发了自身的自动隔离，这种情况不影响这个网络服务整体对外的可用性，只是性能或者服务等级下降，主动链路监控一样可以发现网络服务的亚健康问题。

因此主动链路监控的策略优化机制，监控的不仅包括云服务的可用性，而且包括网元的可用性，监控粒度和精度比传统的黑盒监控要高很多。

图4 初始策略

图5 优化后策略-1

图6 优化后策略-2

亮点2：告警汇聚

图7 故障场景

在网元故障场景下，某个网元出现故障，由于网元是被所有节点和所有租户共同使用的，大量的主动链路监控拨测任务会定位到此网元，如何不做任何过滤直接上报，Server会产生大量的告警，这些告警的问题溯源是重复的，告警处理效率低。

告警汇聚的过程，会把所有的故障点信息进行汇总分析，汇聚成统一故障点之后再上报，避免了大量重复告警上送，运维管理员根据上报的汇聚告警快速定界到故障点，得到故障的影响范围。

亮点3：可视化指标

为了展示测量数据和异常检测结果，主动链路监控设计可视化指标，包括两部分，虚拟链路的时延、丢包率指标和网元的时延、丢包率指标。

虚拟链路是包含多个路径的，比如VPC的服务，包括的是计算节点的虚拟交换机到其他计算节点的虚拟机交换机的路径。图8中的每个原点表示某个计算节点的探针，两个网点之间的线表示两个探针之间的路径，这个路径是包括两边的OVS和中间的物理交换机，同时通过策略优化，每个网卡和每个物理交换机也会被覆盖到。线是绿色表示指标正常，如果指标异常，图8中的连线会红色展示。

点击其中的某条路径，可以查看这个路径的丢包率和时延指标，可以查看最近30分钟，近一小时，近一天以及最长最近一个月的指标。