检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
0毫秒发送告警。 配置完成后,单击“立即创建”,完成创建告警规则。 当网站或ECS的弹性IP出现异常时,站点监控会第一时间通过消息通知服务实时告知资源异常,提醒您处理异常。 父主题: 电商平台业务监控
安装GPU指标集成插件 操作场景 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:
ECS SYS.ECS 因系统故障触发重部署 startAutoRecovery 重要 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 等待虚拟机迁移成功,状态恢复正常。 实例重部署开始。 因系统故障重部署已完成 endAutoRecovery
我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。 如何申请扩大配额? 登录管理控制台。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工
您对云服务运行情况不同的监控需求。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 选择“我的看板”,单击“创建看板”。 系统弹出“创建看板”窗口。 配置参数。 名称:表示监控看板名称,该参数只能由中文、英文字母、数字、下划线、中划线组成,且长度不超过128。 归
事件即云监控保存并监控的云服务资源的关键操作。您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如删除虚拟机、重启虚拟机等。 事件监控默认开通,您可以在事件监控中查看系统事件和自定义事件的监控详情,目前支持的系统事件请参见事件监控支持的事件说明。 事件监控为您提供上报自定义事件的接
(Windows):暂不支持。 % 2.5.6 1分钟 操作系统监控指标: 文件系统 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) disk_fs_rwstate (Agent)文件系统读写状态 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。
m、variance,分别表示最大值、最小值、平均值、求和值、方差值。 period 是 Integer 监控数据粒度。 取值范围: 1,实时数据 300,5分钟粒度 1200,20分钟粒度 3600,1小时粒度 14400,4小时粒度 86400,1天粒度 unit 否 String
自定义监控项并采集监控数据上报到云监控服务,云监控服务会对自定义监控项提供监控图表展示和告警功能。 日志监控 日志监控提供了针对日志内容的实时监控能力。通过云监控服务和云日志服务的结合,用户可以针对日志内容进行监控统计、设置告警规则等,降低用户监控日志的运维成本,简化用户使用监控日志的流程。
参数说明请参见创建告警规则。 配置完成后,单击“立即创建”,完成创建告警规则。 当EIP出现异常事件时,云监控会在第一时间通过消息通知服务实时告知资源异常,提醒您处理,以免因此造成业务损失。 父主题: 事件监控最佳实践
告警级别。默认为2,级别为1、2、3、4。分别对应紧急、重要、次要、提示。 alarm_type 否 String 告警类型。支持的枚举类型: EVENT.SYS:针对系统事件的告警规则。 EVENT.CUSTOM:针对自定义事件的告警规则。 RESOURCE_GROUP:针对资源分组的告警规则。 alarm_actions
表4 condition字段数据结构说明 名称 参数类型 是否必选 说明 period Integer 是 监控数据粒度。 取值范围: 1,实时数据 300,5分钟粒度 1200,20分钟粒度 3600,1小时粒度 14400,4小时粒度 86400,1天粒度 filter String
Agent版本特性 CES Agent支持的镜像列表,参见 Agent支持的系统有哪些? CES Agent迭代版本已知版本特性如下: 2.7.2.1版本 基于2.7.2版本: 增加GPU指标。 增加NPU指标。 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。 2.7
Agent插件资源占用和熔断说明 资源占用 Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 熔断 Agent的CPU单核利用率大于10%,或者内存使用超过200M,且连续发生三次。为了保
否 事件类型,值为EVENT.SYS或EVENT.CUSTOM。EVENT.SYS表示系统事件,EVENT.CUSTOM表示自定义事件。 event_name String 否 事件名称,值为系统产生的事件名称或用户自定义上报的事件名称。 from Integer 否 查询数据起始
Agent插件状态显示“故障”该如何处理? 操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。
配置完成后,单击“立即创建”,完成告警规则的创建。 告警规则添加完成后,当监控指标触发设定的阈值时,云监控服务会在第一时间通过消息通知服务实时告知您开发组资源(ECS-01和ECS-02)的监控指标异常,以免因此造成业务损失。 父主题: 场景化实践案例
添加监控数据 功能介绍 添加一条或多条自定义指标监控数据,解决系统监控指标不能满足具体业务需求的场景。 监控数据保留时间请参见《云监控服务用户指南》的“指标数据保留多长时间”章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以
模板”,根据界面提示配置参数。 根据界面提示,配置告警通知内容模板的基本信息。 图1 基本信息 表1 基本信息 参数 参数说明 模板名称 系统会随机产生一个通知模板名称,用户也可以进行修改。 取值样例:noticeTemplate-d9wa 描述 告警通知模板描述(此参数非必填项)。