检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件: 操作步骤(单节点安装) 操作步骤(多节点批量安装) 约束与限制 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些?。
系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。 如何申请扩大配额? 登录管理控制台。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。
您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如删除虚拟机、重启虚拟机等。 事件监控默认开通,您可以在事件监控中查看系统事件和自定义事件的监控详情,目前支持的系统事件请参见事件监控支持的事件说明。
ECS为核心服务,全面、立体的ECS监控系统对业务稳定起到了至关重要的作用。主机监控功能可提供服务器的系统级、主动式、细颗粒度监控服务。为业务的顺畅运行保驾护航。 网站为电商平台的入口,双12、618等大型购物节会导致不同网络用户访问电商网站出现网页打开慢、网络延时高等问题。
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。
系统弹出“创建看板”窗口。 配置参数。 名称:表示监控看板名称,该参数只能由中文、英文字母、数字、下划线、中划线组成,且长度不超过128。 归属企业项目:将监控看板关联给到某个企业项目时,只有拥有该企业项目所有权限的用户才可以查看和管理该监控看板。 企业项目仅在部分区域上线。
“近1小时”、“近3小时”、“近12小时”、“近24小时”的监控数据:系统默认显示原始数据。您可以选单击页面左上方的“设置”选项,对监控数据的聚合周期进行更改。聚合周期请参考什么是聚合?。 “近7天”、“近30天”的监控数据:系统默认显示聚合后的数据。
系统展示用户当前所有站点概况。包括站点名称、站点地址、探测类型、监控频率、可用探测点百分比、平均响应时间等。 单击站点名称所在行的“查看监控图表”。 进入“监控图表”页面。在此页面您可以根据需要查看该站点“近3小时”、“近12小时”和“近24小时”的监控原始数据曲线图。
% 2.5.6 1分钟 操作系统监控指标: 文件系统 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) disk_fs_rwstate (Agent)文件系统读写状态 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。
因此需使用弹性负载均衡将访问流量根据转发策略分发到后端多台弹性云服务器,通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性,并且使用云监控的事件监控功能对服务器运行异常及自动恢复进行监控,订阅事件告警同步进行业务处理。
包括: 操作系统异常导致重启 云手机服务器硬件故障导致重启 业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 业务中断。 网络中断 cphServerlinkDown 重要 云手机服务器网络中断。
入门实践 当您了解了云监控服务的功能后,可以根据自身的业务需求使用云监控服务搭建业务的系统级监控。 本文介绍云监控服务常用最佳实践,帮助您更好的使用云监控服务。
修复Linux ubuntu系统/snap/挂载点误告警问题。 2.6.4.1版本 基于2.6.4版本: 增加GPU指标。 增加NPU指标 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。 2.6.4版本 增加UDP连接总数指标。
Agent插件资源占用和熔断说明 资源占用 Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 熔断 Agent的CPU单核利用率大于10%,或者内存使用超过200M,且连续发生三次。
EVENT.SYS表示系统事件,EVENT.CUSTOM表示自定义事件。 event_name String 否 事件名称,值为系统产生的事件名称或用户自定义上报的事件名称。
操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。
503 Service Unavailable 系统暂时不可用,请求受限。 错误码 请参考返回错误码说明。 父主题: 监控数据管理
图1 基本信息 表1 基本信息 参数 参数说明 模板名称 系统会随机产生一个通知模板名称,用户也可以进行修改。 取值样例:noticeTemplate-d9wa 描述 告警通知模板描述(此参数非必填项)。
查看方法如下:在操作系统监控指标查看页面,选择“磁盘”页签,然后选择右侧的挂载点,如图1所示。 图1 在操作系统监控页面查看数据盘的磁盘使用率 父主题: 告警
问题分析 弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因: Agent进程运行状态异常 委托异常 路由配置异常导致的获取临时AK/SK失败 网络问题 首先需要确认使用的Agent版本。 使用root账号,登录ECS。