检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Agent插件上线墨西哥城一、圣保罗一和圣地亚哥区域。 商用 Agent安装配置方式说明 2 上线Agent插件的一键安装能力,支持上海一和北京一区域。 您能够通过以下方式,非常方便地安装云服务器监控Agent插件: 1、在云服务器购买流程页面,选择云服务器创建后自动安装监控插件。 2、在云监控服务->主机监控
在“创建告警规则”界面,根据界面提示配置参数。 监控对象为当前的ECS,无需配置。 选择监控指标,选择“自定义创建”,参照配置参数说明完成参数配置。 以CPU使用率为例,由于需要给服务器预留部分处理性能保障服务器正常运行,所以建议将CPU告警阈值设置为80%,连续三次超过阈值后开始报警。 配置完成后,单击“立即创建”,完成创建告警规则。
如图2所示。旧版导出数据任务不会在“任务中心”展示,直接会在当前页面下载。 图2 旧版界面 在“导出监控数据”界面,根据界面提示配置参数。 表1 配置导出监控数据参数 参数 参数说明 任务名称 导出任务名称。 长度范围为1~32个字符。 统计方式 分为聚合值和原始值两种方式。 聚
针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 具体监控指标方面,可设置CPU使用率>80
<port_id>命令采集。 HiNIC网卡工作模式 HiNIC当前工作模式和配置的工作模式。 使用hinicadm mode -i <dev_id>命令采集。 HiNIC网卡核温 HiNIC网卡核温。 使用hinicadm temperature -i <dev_id>命令采集。 HiNIC网卡事件记录
起云服务上的业务受到大幅震荡。为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 本章节介绍如何对弹性云服务器的CPU使用率、内存使用率、磁盘使用率设置告警规则。并在弹性伸缩中配置弹性伸缩策略,当CPU使用率连续5分钟内连续5次达到90%时,系统自动增加一个实例以保证业务平稳运行。
不同操作系统支持的基础监控指标情况请参考弹性云服务器监控指标支持列表。 如需要监控内存使用率、磁盘使用率、带内网络流入速率和带内网络流出速率,请安装主机监控Agent。 父主题: 主机监控
SDK列表 在开始使用之前,请确保您安装的是最新版本的SDK。使用过时的版本可能会导致兼容性问题或无法使用最新功能。您可以在SDK中心查询版本信息。 表1提供了CES服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表
gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 nvidia-smi命令卡住 nvidiaSmiHangEvent 重要 nvidia-smi命令超时,该命令可能卡住 如果业务受损,请提交工单。 可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 NPU: 存在不可纠正ECC错误
云监控插件(Agent) Agent安装配置方式说明 Agent版本特性 修改DNS与添加安全组 Agent安装说明 手动配置Agent(可选) 升级Agent 管理Agent BMS硬件监控插件说明 安装GPU指标集成插件 安装云专线指标采集插件 父主题: 主机监控
接入Prometheus/Grafana 安装配置CES Exporter 将监控数据导出到自建Prometheus/Grafana 父主题: 接入中心
该指标用于统计测量对象当前CPU使用率。 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。 采集方式(Windows):通过WindowsAPI GetSystemTimes获取 % 2.4.1 1分钟 cpu_usage_idle
Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。 账号欠费。 Agent进程故障,请参照管理Agent重启,如果无法重启则说明相关文件被误删,请重新安装Agent。 服务器内部时间和本地标准时间不一致。
在“创建告警规则”界面,根据界面提示配置参数。 根据界面提示,配置告警规则名称。 图4 配置告警规则名称 选择监控对象,配置告警触发条件。 图5 配置告警规则 配置“分组”参数时,选择在操作步骤1-创建资源分组中创建的“开发组资源”。 根据界面提示,配置告警通知参数。 图6 配置告警通知 注意,配置“通知对
配置云服务器全部挂载点磁盘使用率告警规则 场景描述 云监控服务提供了配置云服务器全部挂载点告警规则的能力。本章节介绍了配置云服务器全部挂载点磁盘使用率告警规则的操作流程。 磁盘使用率指标调整为挂载点维度,在新配置磁盘使用率告警规则时需要选择“云服务器挂载点”维度。 如果选择了配置
Agent插件状态显示“运行中”但没有数据该如何处理? Agent一键修复后无监控数据问题排查(老版本Agent) 如何获取Agent的Debug日志? Agent安装成功后管理控制台没有操作系统监控数据或者显示数据滞后 监控数据中会出现跳点的情况 入网带宽和出网带宽出现负值
修改prometheus中的prometheus.yml文件配置。如下配置所示在scrape_configs下新增job_name名为“huaweicloud”的节点。其中targets中配置的是访问cloudeye-exporter服务的ip地址和端口号,services配置的是你想要监控的服务,比如SYS
BMS实例缺失硬件监控插件会导致华为云无法第一时间感知实例的硬件故障,可能影响业务可用性时长,且故障需要用户主动联系技术支持处理。 当安装硬件监控插件后,硬件故障风险会以事件的方式主动通知到用户,需要用户及时授权对风险硬件的维修或更换。 监控插件实现硬件的故障风险检查时,仅会
插件名称,不传查所有插件,目前仅支持telescope 枚举值: telescope extension_status 否 String 插件状态,不传查所有状态, none未安装,running运行中,stopped已停止,fault故障(进程异常),unknown故障(连接异常) 枚举值: none running
"unknown" }] } 案例三 ECS实例未安装agent插件 在CES页面“主机监控”下的【弹性云服务器】中找到对应ECS的实例,在【插件状态】列点击,未安装,然后根据使用指南安装agent插件。 案例四 ECS实例安装的agent插件没有上报磁盘使用率指标数据 agen