检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业务,云监控服务在Agent占用CPU或内存过高时,提供了熔断机制。当Agent负载过高时,会自动触发熔断,触发熔断机制后,Agent暂时停止工作,不上报监控数据。 熔断机制原理 默认情况下,Agent检测机制为: 1分钟查检测一次Agent是否超过第二阈值(占用CPU超过30%
修订记录 发布日期 修改记录 2021-06-16 配置云服务器全部挂载点磁盘使用率告警规则上线。 2020-03-09 使用资源分组和告警功能最佳实践上线。 2019-03-06 事件监控最佳实践上线。 2019-01-22 云监控在众包平台中的应用上线。 2018-09-30
警规则设置的阈值时,系统提供电话、短信、邮箱、企业微信、钉钉、飞书和Welink通知,还可以通过HTTP、HTTPS将告警信息发送至告警服务器,用户可以在第一时间知悉业务运行状况,便于构建智能化的程序处理告警。 批量创建告警规则 告警模板可以帮助用户为多个云服务快速创建告警规则,极大的提高了维护人员的工作效率。
告警类型 告警规则适用的告警类型,可选择指标或者事件告警。 指标 资源类型 配置告警规则监控的服务名称。 弹性云服务器 维度 用于指定告警规则对应指标的维度名称。 云服务器 监控范围 告警规则适用的资源范围,可选择全部资源、资源分组或指定资源。 说明: 选择“全部资源”时,则任何
资源的监控指标名称,必须以字母开头,只能包含0-9/a-z/A-Z/_,字符长度最短为1,最大为64;如:弹性云服务器中的监控指标cpu_util,表示弹性服务器的CPU使用率;文档数据库中的指标mongo001_command_ps,表示command执行频率;各服务的指标名称可查看:“服务指标名称”。
资源的监控指标名称,必须以字母开头,只能包含0-9/a-z/A-Z/_,字符长度最短为1,最大为64;如:弹性云服务器中的监控指标cpu_util,表示弹性服务器的CPU使用率;文档数据库中的指标mongo001_command_ps,表示command执行频率;各服务的指标名称可查看:“服务指标名称”。
无告警:组内资源未触发事件。 已触发:组内有资源触发事件。 未设置告警规则:组内所有资源均未设置告警规则。 资源数(告警中/已触发/资源总数) 组内所有正在告警的资源数/已触发告警的资源数/组内所有资源的数量。 资源类型数 组内资源类型的数量,例如组内有2台弹性云服务器 、1个云硬盘两种资源类型,则资源类型数为2。
不支持局点:华南-广州-友好用户环境、拉美-圣保罗一、拉美-墨西哥城一。 操作步骤 使用具有“管理员”权限的账号(例如,administrator)登录Windows弹性云服务器。 根据Agent安装路径判断当前Agent版本,方法参见Windows平台。 卸载当前版本的Agent,卸载命令参见卸载Agent。
BMS硬件监控指标采集说明 以下是BMS硬件监控插件对应的监控指标采集说明。 指标分类 指标说明 采集方式 服务器整机信息 服务器整机SN、产品名称、厂家等。 使用dmidecode命令采集。 SSD/HDD 基本信息和SMART信息 包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART
String 创建告警规则时选择的资源分组名称,如:Resource-Group-ECS-01 表4 dimensions字段数据结构说明 名称 参数类型 说明 name String 监控维度名称,例如弹性云服务器的维度为instance_id。各服务维度请参考支持监控的服务列表,可参考维度中key字段。
Agent一键修复失败问题排查 Agent一键修复后无监控数据问题排查 上报的指标被丢弃问题排查 Agent插件状态显示“故障”该如何处理? Agent插件状态显示“已停止”该如何处理? Agent插件状态显示“运行中”但没有数据该如何处理? Agent一键修复后无监控数据问题排查(老版本Agent) 如何获取Agent的Debug日志?
Agent一键修复失败问题排查 Agent一键修复后无监控数据问题排查 上报的指标被丢弃问题排查 Agent插件状态显示“故障”该如何处理? Agent插件状态显示“已停止”该如何处理? Agent插件状态显示“运行中”但没有数据该如何处理? Agent一键修复后无监控数据问题排查(老版本Agent) 如何获取Agent的Debug日志?
请确保您已拥有云监控服务的操作权限,能够创建告警规则。 资源层级 配置告警时,您需要指定监控对象的资源层级,资源层级分为云产品和子维度两种类型,推见您使用云产品层级,两者介绍如下。 云产品(推荐):该方式将允许您在同一告警规则内配置多个维度的指标,如CPU使用率(云服务器维度)、磁盘使用率(挂载点维度)。
告警历史的告警级别。值为1、2、3、4。其中1为紧急,2为重要,3为次要,4为提示。 namespace 否 资源命名空间,如弹性云服务器的资源命名空间为:SYS.ECS,各服务命名空间可查看支持监控的服务列表。 from 否 查询告警历史的起始时间。UNIX时间戳,单位毫秒,如:160
String 创建告警规则时选择的资源分组名称,如:Resource-Group-ECS-01 表7 dimensions字段数据结构说明 名称 参数类型 说明 name String 监控维度名称,例如弹性云服务器的维度为instance_id。各服务维度请参考支持监控的服务列表,可参考维度中key字段。
批量安装不支持跨区域执行。 批量安装的主机需同属一个VPC。 Windows版本暂不支持批量安装Agent。 前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。
Unauthorized 未提供认证信息,或认证信息错误。 403 Forbidden 请求页面被禁止访问。 408 Request Timeout 请求超出了服务器的等待时间。 429 Too Many Requests 当前请求过多。 500 Internal Server Error 请求未完成,服务异常。
Unauthorized 未提供认证信息,或认证信息错误。 403 Forbidden 请求页面被禁止访问。 408 Request Timeout 请求超出了服务器的等待时间。 429 Too Many Requests 当前请求过多。 500 Internal Server Error 请求未完成,服务异常。
检查配置是否正确。 账号欠费。 Agent进程故障,请参照管理Agent重启,如果无法重启则说明相关文件被误删,请重新安装Agent。 服务器内部时间和本地标准时间不一致。 Agent插件版本不同,日志路径也不同。 日志路径分别如下: Linux: 新版本Agent:/usr/l
检查配置是否正确。 账号欠费。 Agent进程故障,请参照管理Agent重启,如果无法重启则说明相关文件被误删,请重新安装Agent。 服务器内部时间和本地标准时间不一致。 Agent插件版本不同,日志路径也不同。 日志路径分别如下: Linux: 新版本Agent:/usr/l