检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么配置了5分钟聚合指标告警规则,实际却无法触发告警? 问题现象 已经配置了CBR等服务的5分钟聚合指标告警规则,连续3次触发则告警。实际却无法触发告警。 问题分析 CBR服务每15分钟上报一条指标数据,切换cloudsense告警引擎的region,此类指标无法在连续的两个5分钟时间窗内达到阈值,
”页面。 选择要安装Agent的ECS或BMS,安装Agent插件。 修改待安装Agent的ECS或BMS的DNS并添加安全组,具体步骤请参见修改DNS与添加安全组(Linux)或修改DNS与添加安全组(Windows)。 安装Agent,具体安装步骤请参见安装Agent(Lin
ule,health表示健康。 namespace 否 资源命名空间,例如弹性云服务器的资源命名空间为:SYS.ECS,各服务命名空间可查看支持监控的服务列表。 dname 否 资源维度,例如弹性云服务器维度为:instance_id,各资源的维度可查看支持监控的服务列表。 start
的操作系统级别监控指标和ECS自带的监控指标。 操作系统监控指标和基础监控指标请参见云产品监控指标。 前提条件 已完成Agent插件的安装。安装请参考安装配置Agent进行安装。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 查看ECS或BMS的监控指标: 支持
Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。 账号欠费。 Agent进程故障,请参照管理Agent重启,如果无法重启则说明相关文件被误删,请重新安装Agent。 服务器内部时间和本地标准时间不一致。 Agent插件版本不同,日志路径也不同。
collect_time 是 Long 数据收集时间 UNIX时间戳,单位毫秒。 说明: 因为客户端到服务器端有延时,因此插入数据的时间戳应该在[当前时间-3天+20秒,当前时间+10分钟-20秒]区间内,保证到达服务器时不会因为传输时延造成数据不能插入数据库。 value 是 Double 待添加的监控指标数据的值。
主机监控分为基础监控、操作系统监控和进程监控。 基础监控:ECS自动上报的监控指标,数据采集频率为5分钟1次。可以监控CPU使用率等指标,详见云产品监控指标。BMS不支持基础监控,需要安装主机监控Agent插件。 操作系统监控:通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度
故障,避免因资源问题造成业务损失。 配置云服务器全部挂载点告警规则 配置云服务器全部挂载点磁盘使用率告警规则 云监控服务提供了配置云服务器全部挂载点告警规则的能力。磁盘使用率指标调整为挂载点维度,在新配置磁盘使用率告警规则时需要选择“云服务器挂载点”维度。
安装&升级插件 已支持一键安装的主机资源,可在界面直接点击“安装&升级插件”按钮,系统将自动识别可以进行一键安装的所有主机,进行批量安装插件。 远程安装 必须有可用的安装机,且安装机与需要安装插件的主机在同一VPC组内,确保安装机与待安装主机间网络互通才可进行远程安装,远程安装当前仅支持Linux操作系统的主机。
resources字段数据结构说明 名称 参数类型 是否必选 说明 namespace String 是 资源命名空间,如弹性云服务器的资源命名空间为:SYS.ECS,各服务命名空间可查看支持监控的服务列表。 dimensions Arrays of objects 是 一个或者多个资源维度。
GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。 安装lspci工具的方法,请参见安装lspci工具。 确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。
已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 确保已下载Agent安装脚本,获取脚本的方式如下: 表1 获取Linux镜像的Agent安装脚本
Agent安装成功后管理控制台没有操作系统监控数据或者显示数据滞后 安装配置Agent成功,需要等待2分钟,管理控制台上才会有操作系统监控数据。 若“插件状态”为“运行中”,等待5分钟后仍没有操作系统监控数据,则需要排查ECS或BMS时间和管理控制台所在客户端时间是否一致。 Ag
程名关键字,如图1所示。 图1 配置自定义进程监控 “进程数量”在配置自定义监控时不需要配置,在您配置进程关键字后系统随后会自动刷新展示匹配关键字的进程数量。 配置完成后,您可以在“进程监控”页面的“自定义进程监控”区域框查看您设置的自定义进程的数量。 查看自定义进程监控 登录管理控制台。
修改告警的时候设置通知,也可以关闭通知。 通知目前支持两种: 触发告警时给用户发送邮件或短信通知或通过HTTP、HTTPS形式发送消息至服务器。 触发弹性伸缩自动扩容和缩容。 父主题: 告警
vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。 安装lspci工具的方法如下 登录弹性云服务器。 更新镜像源,获取安装依赖。 wget http://mirrors
仅支持旧版云服务监控操作。 前提条件 已在云监控服务中成功配置数据存储。配置数据存储请参见配置数据存储。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击页面左侧的“云服务监控”,进入“云服务监控”页面,单击待配置的云服务名称,单击右上角“返回旧版”。 选择待查看的
故障监控能力。 物理机硬件监控插件只针对BMS实例生效,其他云服务器不受其影响。 BMS实例缺失硬件监控插件会导致华为云无法第一时间感知实例的硬件故障,可能影响业务可用性时长,且故障需要用户主动联系技术支持处理。 当安装硬件监控插件后,硬件故障风险会以事件的方式主动通知到用户,需要用户及时授权对风险硬件的维修或更换。
告警中、已解决、数据不足、已触发、已失效。 告警中:监控指标数值达到告警配置阈值,资源正在告警中; 已解决:监控指标数值恢复至正常区间,资源的告警已解决; 数据不足:连续三个小时未有监控数据上报,通常是由于相应服务实例被删除或状态异常导致; 已触发:监控的资源触发了告警策略中配置的事件; 已失效:告警规则中监控的资
改”。 在弹出的“修改告警规则”页面中修改告警规则配置参数。 修改告警规则时,告警类型、云产品、资源层级和监控范围的参数为默认值,不可修改,若监控范围是“全部资源”时,可单击“选择排除资源”排除指定资源。其它参数请参考5进行配置。 单击“立即修改”,完成告警规则的修改。 父主题: