检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工
暂不支持CCE纳管后的GPU加速型实例。 前提条件 已安装GPU驱动,未安装lspci工具的云服务器影响GPU掉卡事件的上报。 如果您的弹性云服务器未安装GPU驱动,请参见GPU驱动概述安装GPU驱动。 安装GPU驱动需使用默认路径。 GPU驱动安装完后,需重启GPU加速型实例,否则
此时页面上显示了当前云平台上的弹性云服务器列表。 单击ECS主机所在栏右侧的“更多 > 创建告警规则”。 弹出创建告警规则的窗口。 输入告警规则名称和描述。 按照如下所示配置参数。 触发规则:选择自定义创建。 指标名称:在下拉框中选择“CPU使用率”。 告警策略:平均值、监控周期5分
资源分组支持用户从业务角度集中管理其业务涉及到的弹性云服务器、云硬盘、弹性IP、带宽、数据库等资源。从而按业务来管理不同类型的资源、告警规则、告警记录,可以迅速提升运维效率。 站点监控: 站点监控用于模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连通性等问题。 日志监控: 日
可能会降低。 弹性云服务器支持的监控指标,请参见弹性云服务器支持的监控指标。 父主题: 主机监控
弹性云服务器事件 弹性云服务器是作为一种可随时获取、弹性可扩展的计算服务器。在各业务中,弹性云服务器作核心基础,细微的性能变化,运行异常及自动恢复,都可能会引起云服务上的业务受到大幅震荡。 因此需使用弹性负载均衡将访问流量根据转发策略分发到后端多台弹性云服务器,通过流量分发扩展应
云监控服务统计的弹性云服务器网络流量与云主机系统内工具检测不一致的问题 因为云监控服务与弹性云服务器系统内指标检测软件的采样周期不同。 云监控服务对弹性云服务器、云硬盘的采样周期是4分钟(云服务器类型为KVM的是5分钟),而系统内工具的采样周期一般为1秒,远远小于云监控服务的采样周期。
为什么云服务器看不到内存使用率、磁盘使用率、带内网络流入速率和带内网络流出速率四个监控指标? 当前创建的Linux云服务器,均不支持内存使用率、磁盘使用率、带内网络流入速率和带内网络流出速率四个监控指标。但Windows云服务器是支持这四个指标的。 不同操作系统支持的基础监控指标
如果选择了配置云服务器全部挂载点的告警规则,后续该云服务器的新增挂载点会自动适配该告警规则。 对于用户之前已配置的包含挂载点磁盘使用率的告警规则,在用户修改告警规则时,会提示将该条告警规则拆分成不同维度的多条规则。建议在拆分时,选择将拆分后的挂载点规则,替换为全部挂载点。 图1 配置挂载点告警规则优化前后示意图
为了更好监控弹性负载均衡服务,需要先开启负载均衡ELB的健康检查,详情参见健康检查异常如何排查?,建议设置负载均衡ELB网络流出速率的80%作为告警阈值。 建议将RDS的CPU使用率告警阈值设置为80%,连续三次超过阈值后开始告警。磁盘使用率、IOPS、使用中的数据库连接数等其他监控指标可根据您的实际情况来设置。
每秒流入弹性云服务器的网络流量。 在弹性云服务器中下载外部网络资源或从外部网络、服务器、客户端上传文件到弹性云服务器,都是网络流入。 单位:Byte/s 网络流出速率 每秒流出弹性云服务器的网络流量。 弹性云服务器对外提供访问或弹性云服务器作为FTP服务器供外部网络下载ECS上的资源时,都是网络流出。
维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器, 枚举值: mount_point disk proc gpu raid dim_value 否 String 维度值,32位字符串,如:2e8401
支持监控的服务列表 分类 服务 命名空间 维度 监控指标参考文档 计算 弹性云服务器 SYS.ECS Key:instance_id Value:云服务器ID 弹性云服务器的基础监控指标 弹性云服务器中操作系统监控 AGT.ECS Key:instance_id Value:云服务器ID
硬件问题导致GPU卡链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU显存页告警 gpuMemoryPageFault 重要 GPU显存页发生故障,故障可能由应用、驱动或硬件引起。
硬件问题导致GPU卡链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU显存页告警 gpuMemoryPageFault 重要 GPU显存页发生故障,故障可能由应用、驱动或硬件引起。
控服务,请参考支持监控的服务列表。 已对接云监控的服务,由于各个服务采集上报监控数据的频率各有不同,请耐心等待一段时间。 弹性云服务器或裸金属服务器关机超过1小时以上。 云硬盘没有挂载给弹性云服务器或裸金属服务器。 弹性负载均衡未绑定后端服务器或者后端服务器全部关机。 资源购买时间不足10分钟。
Agent版本特性 本章节为您介绍云监控插件的版本发布信息。 CES Agent支持的镜像列表,参见 Agent支持的系统有哪些? CES Agent迭代版本已知版本特性如下: 2.7.5.1版本 基于2.7.5版本: GPU指标采集加固。 2.7.5版本 修复TCP连接数过多时
弹性公网IP事件 虚拟私有云为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性,简化用户的网络部署。 当您的弹性云服务器要访问Internet时,您可使用虚拟私有云创建的弹性公网IP绑定到弹性云服务器上,弹性云服务器即可连接公网。不同弹性公网IP还可以共享带宽,减少您的带宽成本。
原始值:导出原始数据。 时间区间 选择导出数据的时间范围。 聚合值最多可导出前90天的数据 原始值导出的最大时间区间为最近48小时 聚合区间 当统计方式为“聚合值”时需配置此参数。 当选择“按时间区间”时,导出的数据为该时间段聚合后的值,当选择其他聚合区间时,导出的数据会分别按照周、天、小时聚合后导出。
据。 问题分析 弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因: Agent进程运行状态异常 委托异常 路由配置异常导致的获取临时AK/SK失败 网络问题 首先需要确认使用的Agent版本。 使用root账号,登录ECS。 执行如下命令,确认使用老版本Agent。