检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
增加NPU指标。 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。 2.7.2版本 增加自定义进程监控指标。 增加磁盘读写队列指标(仅支持windows)。 增加可用性监控指标。 增加NTP指标。 增加网卡级别指标(仅支持linux)。
查询主机监控维度指标信息 功能介绍 根据ECS/BMS资源ID查询磁盘、挂载点、进程、显卡、RAID控制器维度指标信息;维度NPU已经为原始值,不需要调用该接口进行额外查询获取指标信息 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。
Value:NPU Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS
重要 NPU 卡 %d RoCE Link 状态Down 请检查NPU Roce网口状态 NPU网卡不可用 NPU:RoCE网卡健康状态异常 RoCEHealthStatusError 重要 NPU 卡 %d RoCE 网络健康状态异常 请检查NPU Roce网卡健康状态 NPU
NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要 一般是由于NPU掉卡 转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要 可能是由于DDR颗粒温度过高或过温软件预警
修订记录 发布日期 修改说明 2024-01-24 第七十次正式发布: 事件监控支持的事件说明新增“数据库代理”事件描述。 Agent版本特性更新Agent版本。 新增创建/删除/复制/修改通知内容模板章节。 2024-01-18 第六十九次正式发布: 新增跨账号查看我的看板章节。
文档修订记录 发布日期 修改记录 2023-10-12 第四十六次正式发布: 本次变更如下: 新增告警通知。 新增一键告警。 新增告警通知屏蔽。 新增CES资源标签管理。 2023-08-31 第四十五次正式发布: 本次变更如下: 新增监控看板。 新增监控视图。 新增插件状态查询。