检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
node_ip(APIG实例,节点ip) node_system_load 网关节点系统负载 count node_qps 网关节点qps 次/秒 node_cpu_usage 网关节点cpu使用率 % node_memory_usage 网关节点内存使用率 % 裸金属服务器 SYS.BMS
表2 裸金属服务器 事件来源 命名空间 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 BMS SYS.BMS GPU SRAM存在 Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable
表2 裸金属服务器 事件来源 命名空间 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 BMS SYS.BMS GPU SRAM存在 Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable
BMS硬件监控插件说明 Agent2.5.6.1版本后集成了物理机硬件监控插件,通过实时巡检发现硬件的亚健康状态,提前规避故障风险,为BMS实例提供全面硬件故障监控能力。 物理机硬件监控插件只针对BMS实例生效,其他云服务器不受其影响。
发布区域:以控制台实际上线区域为准 创建告警通知主题 查看告警记录 权限管理 如果您需要对您所拥有的云监控服务进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),通过IAM,您可以: 根据企业的业务组织,在您的华为云账号中
{region_id}.myhuaweicloud.com/v3" project_name: "cn-north-1" # 华为云项目名称,可以在“华为云->统一身份认证服务->项目”中查看 access_key: "" # IAM用户访问密钥,使用脚本将ak sk解密后传入
BMS硬件监控指标采集说明 以下是BMS硬件监控插件对应的监控指标采集说明。 指标分类 指标说明 采集方式 服务器整机信息 服务器整机SN、产品名称、厂家等。 使用dmidecode命令采集。 SSD/HDD 基本信息和SMART信息 包含盘的基本信息。
instance_id Value:云服务器ID Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:gpu Value:GPU Key:proc Value:进程 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS
Key:mount_point Value:挂载点 Key:proc Value:进程 Key:gpu Value:GPU Key:npu Value:NPU Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS
/uniagent-cn-north-1/package/agent_install.sh && bash agent_install.sh -u 0.2.1 -t 2.7.5 -r cn-north-1 命令执行完成时,输出Telescope process starts successfully
主机监控 针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。
事件监控 在实际的业务的运行中,ECS、BMS可随时根据业务调整,进行删除、重启、关闭、删除网卡、删除安全组等操作。因此,可以使用事件监控随时监控ECS、BMS的运行状态。 操作步骤 登录管理控制台。 在管理控制台左上角选择区域和项目。 单击“服务列表 > 云监控服务”。
BMS不支持基础监控,需要安装主机监控Agent插件。 操作系统监控:通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。数据采集频率为1分钟1次。除了CPU使用率等指标外,还可以支持内存使用率(Linux)等指标,详见云产品监控指标。
主机监控 通过监控ECS或BMS的CPU使用率、内存使用率、磁盘等基础指标,确保ECS或BMS的正常使用,避免因为对资源的过度使用造成业务无法正常运行。 处理异常场景 云监控服务会根据您创建的告警规则,在监控数据达到告警策略时发送告警信息,让您及时获取异常通知,查询异常原因。
入网带宽和出网带宽出现负值 老版本Agent在统计出入网带宽时,如若装有docker,当容器重启时无法统计虚拟网卡值,由于计算的是差值而导致出现负值的情况。 请参照管理Agent更新Agent。 父主题: 主机监控
CES Agent会默认屏蔽docker相关的挂载点。
若“插件状态”为“运行中”,等待5分钟后仍没有操作系统监控数据,则需要排查ECS或BMS时间和管理控制台所在客户端时间是否一致。
查询主机监控维度指标信息 功能介绍 根据ECS/BMS资源ID查询磁盘、挂载点、进程、显卡、RAID控制器维度指标信息;维度NPU已经为原始值,不需要调用该接口进行额外查询获取指标信息 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。
Agent不同插件状态说明及处理方式 Agent有以下五种状态: 未安装/未启动:指未在该ECS/BMS中安装Agent或手动停止了Agent。 运行中:Agent运行正常,可正常上报监控数据。
表1 安全组规则 优先级 策略 类型 协议端口 目的地址 说明 1 允许 IPv4 TCP 80 100.125.0.0/16 用于从OBS桶下载Agent包到ECS或BMS中、获取ECS或BMS的元数据信息与鉴权信息。