检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用示例:用户自定义创建弹性云服务器CPU利用率告警 本章节用于指导用户在云监控服务为弹性云服务器创建告警规则,当弹性云服务器设置CPU使用率≥80%时触发告警。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击页面左侧的“主机监控”,进入主机监控页面。 此时
安装GPU指标集成插件 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:
执行以下命令,查看安装结果。 lspci -d 10de: 图1 安装结果 GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。如果驱动未安装,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。 Linux驱动文件 nvmlUbuntuNvidiaLibraryPath
服务资费 云监控服务基础功能免费,包括查看监控看板、创建告警规则、添加监控项等。同时云监控服务与其他云服务组合使用,为您提供监控数据文件转储、发送告警通知等增值服务,这些增值服务可能产生额外费用,具体由提供该功能的服务结算。 通常情况下,云监控服务产生的增值服务费用很低,因此建议您根据需要搭配使用。
主机监控 在视频直播中,弹性云服务器作为核心基础,细微的性能变化,可能会引起云服务上的业务受到大幅震荡。为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 本章节介绍如何对弹性云服务器的CPU使用率、内存使用率、磁盘使用率设置告警规则。并在弹性伸缩中配置弹性伸
带外网络流出流入速率是什么含义? 概念 带外网络流出速率和带外网络流入速率这两个监控指标主要涉及两个概念: 带外 带外:带外相对于带内。在云服务器中,“带内”表示监控的测量对象是弹性云服务器。“带外”表示监控的测量对象是虚拟化层面的物理服务器。 流入和流出 流入:表示以弹性云服务
Key:instance_id Value:云服务器ID Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:gpu Value:GPU Key:proc Value:进程 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS
配置云服务器全部挂载点磁盘使用率告警规则 场景描述 云监控服务提供了配置云服务器全部挂载点告警规则的能力。本章节介绍了配置云服务器全部挂载点磁盘使用率告警规则的操作流程。 磁盘使用率指标调整为挂载点维度,在新配置磁盘使用率告警规则时需要选择“云服务器挂载点”维度。 如果选择了配置
什么是云监控服务? 云监控服务为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台。使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。云监控服务架构图如图1所示。 图1 云监控服务架构图 云监控服务主要具有以下功能: 自动监控:
维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器, 枚举值: mount_point disk proc gpu raid dim_value 否 String 维度值,32位字符串,如:2e8401
弹性云服务器事件 弹性云服务器是作为一种可随时获取、弹性可扩展的计算服务器。在各业务中,弹性云服务器作核心基础,细微的性能变化,运行异常及自动恢复,都可能会引起云服务上的业务受到大幅震荡。 因此需使用弹性负载均衡将访问流量根据转发策略分发到后端多台弹性云服务器,通过流量分发扩展应
添加监控视图 在完成监控看板的创建后,您就可以添加监控视图对云服务进行监控。目前每个监控看板最多支持50个监控视图。 在同一个监控视图里,您可以添加50个监控指标,支持跨服务、跨维度、跨指标进行对比监控。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 选择“监控看板
2.6.4.1版本 基于2.6.4版本: 增加GPU指标。 增加NPU指标 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。 2.6.4版本 增加UDP连接总数指标。 2.5.6.1版本 基于2.5.6版本: 增加GPU指标。 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。
)五个探测点实时监控网站,后续探测点和能力不再演进,如有诉求请使用广域网质量监控,具体操作请参见广域网质量监控(公测)。 目前站点监控功能免费。 站点监控部署在华北-北京一,若子账号无权限,需在用户所在用户组策略中勾选添加华北-北京一的权限。 图1 修改CES授权范围 功能优势
任务中心 任务中心提供数据导出和Agent维护的管理功能,您可以前往告警记录、主机监控、云服务监控等页面创建导出任务,还可以前往主机监控页面创建Agent安装任务。 “监控数据导出”和“告警记录导出”中的导出任务会在创建时间7天后清除。 监控数据导出 登录管理控制台。 单击“服务列表
简介 电商业务内存要求高、数据量大并且数据访问量大、要求快速的数据交换和处理,监控要求极其高。 ECS为核心服务,全面、立体的ECS监控系统对业务稳定起到了至关重要的作用。主机监控功能可提供服务器的系统级、主动式、细颗粒度监控服务。为业务的顺畅运行保驾护航。 网站为电商平台的入口
请确保您已创建通知对象并开启“企业微信”通知渠道白名单,开启白名单请参考申请开通SMN新协议公测。 创建钉钉机器人 创建钉钉机器人请参考创建钉钉机器人,同时请您关注钉钉免费转商业化公告。 在通知对象中添加钉钉机器人 在通知对象中添钉钉机器人的Webhook地址。 登录管理控制台。 单击“服务列表 > 云监控服务”。
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
Agent一键修复后无监控数据问题排查(老版本Agent) 问题现象 Agent一键修复后运行正常,但仍然没有监控数据。 问题分析 弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因: Agent进程运行状态异常 委托异常 路由配置异常导致的获取临时AK/SK失败