Agent日志发现指标上报正常。登录实例后执行命令“lscpu“查看返回值中包含乱码。 问题分析 CES Agent需要通过“lscpu”命令的返回值来确定实例是ECS/BMS,当实例系统语言为中文时,“lscpu”命令的返回值中有乱码,会导致CES Agent误将ECS错误识别为BMS,进而影响指标
主机监控Agent对主机的性能会有影响吗? Agent不同插件状态说明及处理方式 Agent支持的指标列表 支持GPU监控的环境约束 BMS硬件监控指标采集说明 什么是插件修复配置? 怎样让新购ECS实例中带有操作系统监控功能? Agent各种状态说明及异常状态处理方法 基础监控与操作系统监控数据出现不一致的问题
escope ]]; then echo "old agent"; else echo 0; fi 返回“old agent”,表示使用的是老版本Agent(telescope架构)。 返回版本号,表示使用新版本Agent(Uniagent架构)。 返回“0”,表示未安装Agent。
状态。 表1 云服务器列表和分组规划 云服务器名称 分组 是否需要安装Agent 所属部门 ECS-01 开发组资源 是 开发项目组 ECS-02 开发组资源 是 开发项目组 ECS-03 无需分组 否 测试项目组 ECS-04 无需分组 否 测试项目组 前提条件 ECS01和E
例如:CPU使用率,监控周期为5分钟,连续三个周期平均值≥80%,每一小时告警一次。 基础监控和操作系统指标请参见云产品监控指标。 说明: 每一小时告警一次是指告警发生后如果状态未恢复正常,每间隔一个小时重复发送一次告警通知。 告警规则内最多可添加50条告警策略,若其中一条告警策略达到条件都会触发告警。
各服务的指标名称可查看:“服务指标名称”。 period Integer 指标周期,单位是秒; 0是默认值,例如事件类告警该字段就用0即可; 1代表指标的原始周期,比如RDS监控指标原始周期是60s,表示该RDS指标按60s周期为一个数据点参与告警计算;如想了解各个云服务的指标原
态阈值。当前仅在华南-广州上线。 静态阈值:指告警触发规则设置成固定的阈值,如果指标达到设置的阈值,则触发告警。 动态阈值:指告警触发阈值是根据智能计算指标的历史数据预测指标的阈值,若实际值偏离预测值,则触发告警。 静态阈值 事件类型 当告警类型选择事件时,需要选择事件类型,可选择系统事件或自定义事件。
GET /v2/{project_id}/alarm-templates 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 租户ID 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer
GET /v2/{project_id}/resource-groups 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 租户ID 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 enterprise_project_id
选择配置告警策略的方式,当告警类型为站点时,只支持自定义创建。 告警策略 触发告警规则的告警策略。 例如:可用性连续三个周期≤90%,每一小时告警一次。 每一小时告警一次是指告警发生后如果状态未恢复正常,每间隔一个小时重复发送一次告警通知。 告警级别 根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。 根据界面提示,配置告警通知参数。
资源信息。 步骤一:为主机配置安装Agent插件 ECS会上报基础监控指标和操作系统监控指标,其中基础监控指标是ECS云服务本身上报的指标,但是这类指标的采集周期大部分是5分钟周期,另一种则是操作系统安装了CES Agent插件上报的监控指标,即操作系统监控指标,这类指标由CES
主题订阅:通过在消息通知服务(SMN)配置的主题,快速将该消息推送至消息主题。 通知配置模块如下图所示。 通知策略模块如下图所示。 监控最核心的职责是帮助用户发现问题,而问题的发现是依赖监控系统中对告警规则的配置,告警规则配置的覆盖率、准确率将直接影响监控系统的故障发现率。 父主题: 告警配置方式
CES的告警通知依赖SMN服务,如果SMN服务内部处理延迟时间比较大,可能会导致用户收到的告警有延迟。 通知策略 当通知方式选择通知策略时,需要选择告警通知的策略。通知策略是包含通知组选择、生效时间、通知内容模板等参数的组合编排。创建通知策略请参见创建/修改/删除通知策略。 通知组 需要发送告警通知的通知组。创建通知组请参见创建通知对象/通知组。
project_id 是 项目ID。 获取方式请参见获取项目ID。 表2 查询检索参数说明 名称 是否必选 参数类型 说明 namespace 否 String 查询服务的命名空间,各服务命名空间请参考支持监控的服务列表。 格式为service.item;service和item必须是字符串,
在IAM控制台创建用户组,并授予云监控服务权限“CES Administrator”、“Tenant Guest”和“Server Administrator”。 云监控服务是区域级别的服务,通过物理区域划分,授权后只在授权区域生效,如果需要所有区域都生效,则所有区域都需要进行授权操作。针对全局设置的权限不会生效。
u性能等级。 - 2.4.1 1分钟 gpu_power_draw 该GPU的功率。 显示当前gpu卡的功率,功率超过最大功率或者是个错误值都可能是gpu硬件故障。 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetPowerUsage接口获取gpu功率。
6-20-56Z_21d36ced8c8af71e.json OBS桶名和事件前缀为用户设置,其余参数均为系统自动生成。 监控数据原始文件是时间粒度的分片文件,文件中包含该时间分片下某一个资源下所有指标的监控数据,以Json格式存储。 为了方便用户使用,云监控服务为用户提供了格式
需要检查EIP带宽是否一直增加,业务是否正常,需要考虑进行扩容。 EIP封堵 带宽超过5G就会封堵,相当于把流量直接丢弃,说明带宽严重超限或收到攻击,一般是受到了DDoS攻击。 收到EIP解封事件时,说明封堵已被解封。 需要更换EIP,避免业务受到影响,同时查看事件中的封堵原因,进行相应处理。 EIP解封
告警规则。 选择策略 仅当屏蔽方式选择策略屏蔽时,需要选择资源类型的告警策略。 说明: 可以选择一个或多个告警策略进行屏蔽。 若该告警策略是所有策略都满足才告警时,则不支持选择策略。 选择对象 选择需要屏蔽告警的资源。 说明: 单次最多可添加100个资源。 屏蔽方式选择资源屏蔽时,可直接设置选择对象。
方差值:指在聚合周期内原始值中各个数据点与其平均值之间的差异程度的值。 求和值:指在聚合周期内原始值相加得到的值。 说明: 用户可根据业务需求选择聚合周期,聚合周期目前最小是5分钟,同时还有20分钟、1小时、4小时、24小时,共5种聚合周期。 当选择聚合周期时,告警通知会延迟,聚合周期为5分钟会延迟告警10-15