检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果上述修复方案失效,请参考GPU驱动不可用中的处理方法进行故障恢复。 GPU功能异常 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 NPU功能可能异常
主机监控配置监控及告警的全流程介绍 主机资源作为最重要的云上资源,如何做好对它的监控、告警,在实际的运维过程中尤为重要,本文主要介绍主机如何进行监控及配置告警。 应用场景 当用户购买了主机资源后,对于资源的运行状态需要进行必要的监控,以及对重点业务指标进行配置监控告警,能及时准确掌握主机资源的云上运行状态。
对于直接统计的流入弹性云服务器的网络流量会略大。因为虚拟化层会判断消息类型,自动删除一些无用消息。 单位:Byte/s 带外网络流出速率 虚拟化层统计每秒流出弹性云服务器的网络流量。一般来讲,相对于直接统计的流出弹性云服务器的网络流量会略大。因为虚拟化层会判断消息类型,自动删除一些无用消息。
云监控 内置指标 各个服务有自己内置支持的指标和维度,比如弹性云服务器(SYS.ECS)支持的指标有cpu_util等。 Metric Metric由3部分组成:Namespace,Dimensions(optional),MetricName,单纯的MetricName不是一个指标,不能标识任何东西。
是 创建的资源分组选择一个或者多个资源。 详细参数说明请参见表3。 表3 resources字段数据结构说明 名称 参数类型 是否必选 说明 namespace String 是 资源命名空间,如弹性云服务器的资源命名空间为:SYS.ECS,各服务命名空间可查看支持监控的服务列表。
Agent版本特性 本章节为您介绍云监控插件的版本发布信息。 CES Agent支持的镜像列表,参见 Agent支持的系统有哪些? CES Agent迭代版本已知版本特性如下: 2.7.5.1版本 基于2.7.5版本: GPU指标采集加固。 2.7.5版本 修复TCP连接数过多时
创建主机监控的告警通知 当您需要监控各云产品资源的使用情况时,可以创建告警规则并配置告警通知。如果资源的监控指标触发设定的阈值,云监控服务会在第一时间通过消息通知服务实时告知您云上资源异常,以免因此造成业务损失。本章节指导用户对ECS或BMS的监控指标创建告警规则。 操作步骤 登录管理控制台。
查看主机监控的监控指标 本章节指导用户查看主机监控指标,监控指标分为Agent插件采集的细颗粒度的操作系统级别监控指标和ECS自带的监控指标。 操作系统监控指标和基础监控指标请参见云产品监控指标。 前提条件 已完成Agent插件的安装。安装请参考安装配置Agent进行安装。 操作步骤
事件时,需要选择导入的模板。 您可以选择系统预置的默认告警模板,或者选择自定义模板。 事件名称 用户操作资源的动作,如用户登录,用户登出,为一个瞬间的操作动作。 事件监控支持的操作事件请参见事件监控支持的事件说明。 取值样例:删除虚拟机 告警策略 触发告警的告警策略。 例如:监控周期为5分钟,累计达到3次。
使用图例中的颜色根据该大区下的网络性能最优的区域的时延范围进行绘制。 除此之外,公网时延体验馆中标注了华为云各个公网区域在全球的大概位置,通过图例中的颜色表明该区域覆盖的周边国家或地区的平均访问时延。公网时延体验馆还会提供地区选择与网络测速功能,用户可以根据自身想看的地区访问指定
当告警触发后,我们需要定义通知的渠道和对象,快速的将告警信息通过配置的渠道通知到运维人员。 当前CES支持以下三种方式来完成通知的配置。 通知策略(推荐):产品最新上线能力,通过通知策略可以完成告警的分级通知、简易排班。 通知组:通过在云监控服务上配置的通知群组,可以快速通知到指定运维人员。
云监控服务哪些资源支持企业项目? 目前,支持按企业项目分权分域的有:我的看板、资源分组、告警规则、可用性监控、云服务监控、站点监控和广域网质量监控。 父主题: 云服务监控
创建站点监控的告警通知 操作场景 本章节指导用户对已创建的站点进行告警规则的配置。通过配置告警规则,可以在出现异常状态时立马告警,并收到服务故障信息。 前提条件 已创建站点监控。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务 > 站点监控”。 单击监控站点所在行的“创建告警规则”。
告警级别有哪些? 告警级别分为紧急,重要,次要,提示四种级别,其中告警规则的告警级别由用户设置,用户可根据自己业务及告警规则设置合理告警级别,四种级别简单说明如下: 紧急告警:告警规则对应资源发生紧急故障,影响业务视为紧急告警。 重要告警:告警规则对应资源存在影响业务的问题,此问题相对较严重,有可能会阻碍资源的正常使用。
添加订阅 主题是消息通知服务发送广播的通道。因此完成主题的创建之后,需要为这个主题添加相关的订阅者,这样,在监控指标触发告警条件时才能够将告警信息通过主题发送给订阅这个主题的订阅者。 操作步骤 登录管理控制台。 在页面左上角单击图标,选择“管理与监管” > “消息通知服务”。 进入消息通知服务页面。
155天 “亚太-曼谷”的指标数据最长保留周期为一年,聚合周期为24小时。 若需要将数据保存更长时间,可对数据进行转储保存。具体操作请参考数据转储。 如果某个资源实例被停用、关闭或者删除,相应的原始指标数据停止上报1小时后,实例相关的指标就被删除。停用或关闭的实例被重新启用后,指标
根据界面提示,配置告警通知内容模板的基本信息。 图1 基本信息 表1 基本信息 参数 参数说明 模板名称 系统会随机产生一个通知模板名称,用户也可以进行修改。 取值样例:noticeTemplate-d9wa 描述 告警通知模板描述(此参数非必填项)。 渠道类型 在下拉框中选择告警通知的通知方式,可选
企业项目的子用户在配置告警规则时,无法选择全部资源 告警通知是什么,分为几类? 告警状态有哪些? 告警级别有哪些? 如何查看数据盘的磁盘使用率和创建告警通知? 如何修改告警通知中云账号联系人和主题订阅者的电话、邮箱等信息? 如何将告警通知发送给子账号? 父主题: 产品使用
面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 详情请参见区域和可用区。 可用区(AZ,Availability Zone) 一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将
附加请求头字段,如指定的URI和HTTP方法所要求的字段。例如定义消息体类型的请求头“Content-Type”,请求鉴权信息等。 详细的公共请求消息头字段请参见表3。 表3 公共请求消息头 名称 描述 是否必选 示例 Host 请求的服务器信息,从服务API的URL中获取。值为h