检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Agent插件状态显示“故障”该如何处理? 操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置
手动配置Agent(Windows,可选) 用户成功安装Agent插件后,推荐您采用“修复插件配置”方式配置Agent。如果“修复插件配置”不成功或其他原因导致无法配置Agent,你可以采用本章节提供的手工方式配置Agent。 约束与限制 目前支持Linux操作系统和Windows
手动配置Agent(Linux,可选) 用户成功安装Agent插件后,推荐您采用“修复插件配置”方式配置Agent。如果修复插件配置不成功或其他原因,你可以采用本章节提供的手工方式配置Agent。 前提条件 已成功安装Agent插件。 确认正在使用的Agent版本 使用root账号
告警通知系统模板更新记录 云监控服务930版本将短信告警通知系统模板中的告警信息进行了修改,具体变更信息如表1 短信-指标系统通知模板、表2 短信-系统事件系统通知模板和表3 短信-自定义事件系统通知模板所示: 表1 短信-指标系统通知模板 信息 变更操作 告警恢复状态 新增 跳转连接
Agent不同插件状态说明及处理方式 Agent有以下五种状态: 未安装/未启动:指未在该ECS/BMS中安装Agent或手动停止了Agent。 运行中:Agent运行正常,可正常上报监控数据。 故障:监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为
网络监控 在众包平台活动期间,网站首页、登录页面、店铺详情页都会出现瞬时间的访问流量变大的情况,因此需随时监控出网带宽。 并且可能受到DDOS攻击或业务量大时连接数突增,导致业务访问变慢,预计SNAT连接数会达到平时访问量的2-3倍,所以需随时监控SNAT连接数。 操作步骤 登录管理控制台
插件状态查询 功能介绍 插件状态查询,包括uniagent状态以及插件状态 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v3/{project_id}/
Agent插件状态显示“故障”该如何处理? 操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置
批量创建Agent任务 功能介绍 批量创建Agent任务 接口约束 目前拉美-布宜诺斯艾利斯一、拉美-利马一2个局点不支持该接口 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
安装GPU指标集成插件 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版
服务优势 自动开通 云监控服务会自动开通。同时您可以很方便使用云监控服务管理控制台或API接口查看云服务运行状态并设置告警规则。 实时可靠 原始采样数据实时上报,提供对云服务的实时监控,实时触发产生告警并通知用户。 监控可视化 云监控服务通过监控面板为用户提供丰富的图表展现形式,支持数据自动刷新以及指标对比查看
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工具
查询Agent任务列表 功能介绍 查询Agent任务列表 接口约束 目前拉美-布宜诺斯艾利斯一、拉美-利马一2个局点不支持该接口 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
查看事件监控数据 本章节指导用户查看事件监控的监控数据。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击业务左侧导航栏的“事件监控”。 进入“事件监控”页面。在“事件监控”页面,默认展示近24小时的所有系统事件。 您也可以根据需要选择“近1小时”“近3小时”“
为什么配置了5分钟聚合指标告警规则,实际却无法触发告警? 问题现象 已经配置了CBR等服务的5分钟聚合指标告警规则,连续3次触发则告警。实际却无法触发告警。 问题分析 CBR服务每15分钟上报一条指标数据,切换cloudsense告警引擎的region,此类指标无法在连续的两个5分钟时间窗内达到阈值
事件监控支持的事件说明 表1 弹性云服务器 事件来源 命名空间 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 ECS SYS.ECS 因系统故障触发重部署 startAutoRecovery 重要 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机
事件监控支持的事件说明 表1 弹性云服务器 事件来源 命名空间 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 ECS SYS.ECS 因系统故障触发重部署 startAutoRecovery 重要 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机
查询指标列表 功能介绍 查询系统当前可监控指标列表,可以指定指标命名空间、指标名称、维度、排序方式,起始记录和最大记录条数过滤查询结果。 云服务资源删除后,会保留3个小时的数据缓存,在3小时之内还能查到资源对应的监控指标,属于正常现象。 调试 您可以在API Explorer中调试该接口
为什么配置了5分钟聚合指标告警规则,实际却无法触发告警? 问题现象 已经配置了CBR等服务的5分钟聚合指标告警规则,连续3次触发则告警。实际却无法触发告警。 问题分析 CBR服务每15分钟上报一条指标数据,切换cloudsense告警引擎的region,此类指标无法在连续的两个5分钟时间窗内达到阈值
获取项目ID 操作场景 在调用接口的时候,部分URL中需要填入项目ID,所以需要获取到项目ID。有如下两种获取方式: 调用API获取项目ID 从控制台获取项目ID 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目列表API获取。 获取项目ID的接口为“GET https