检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
总览 总览由资源监控和站点监控两部分组成。通过查看总览,让用户实时了解各云服务的资源告警和站点响应情况。 资源监控 资源监控是以资源分组维度横向展示和各个服务资源维度纵向分布,将各个资源的实时告警情况进行展示,用户可按照不同维度对资源告警进行关注,方便高效管理您的资源。 下面将介绍资源监控如何查看和使用。
主机监控 概览 云监控插件(Agent) 进程监控 查看主机监控的监控指标 创建主机监控的告警通知 查看主机监控的资源详情 父主题: 云资源监控
事件ID 事件级别 事件说明 处理建议 Cloud Eye SYS.CES 插件故障事件 agentHeartbeatInterrupted 重要 监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 查看Agent域名是否无法解析。 查看账号是否欠费。
云资源监控 监控数据管理 监控看板 监控视图 资源标签管理 指标管理 插件状态查询 Agent任务相关接口 父主题: API
根据ECS/BMS资源ID查询磁盘、挂载点、进程、显卡、RAID控制器维度指标信息。 API V3 插件状态查询 插件状态查询(ListAgentStatus) 插件状态查询,包括uniagent状态以及插件状态。 Agent任务相关接口 查询Agent任务列表(ListAgentInvocations)
案例三 ECS实例未安装agent插件 在CES页面“主机监控”下的【弹性云服务器】中找到对应ECS的实例,在【插件状态】列点击,未安装,然后根据使用指南安装agent插件。 案例四 ECS实例安装的agent插件没有上报磁盘使用率指标数据 agent插件故障导致没有上报指标数据,详见agent常见问题排查。
创建事件监控的告警通知 操作场景 当您需要关注核心事件时,通过为指定的事件创建告警规则及告警通知,可以及时收到告警信息,进行异常处理或业务切换。本章节指导用户针对事件监控创建告警规则。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击页面左侧的“事件监控”。
上报事件 功能介绍 事件监控为您提供上报自定义事件的接口,方便您将业务产生的异常事件或重要变更事件采集上报到云监控服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
Eye服务的数据。将服务接入Prometheus前,需要先安装配置CES Exporter。 拓展标签支持情况 该插件对于已对接云监控的云服务均支持指标数据的导出。为提高云服务资源的识别度、可读性,插件对于以下服务支持导出资源属性label,如ECS实例会增加hostname、ip等label,同
建议在拆分时,选择将拆分后的挂载点规则,替换为全部挂载点。 图1 配置挂载点告警规则优化前后示意图 前提条件 云服务器已经安装了Agent插件。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击告警,进入告警规则界面,然后单击“创建告警规则”。 在“创建告警规
在“任务中心”页面的“Agent维护”页签可以查看安装、配置与升级Agent的任务信息。 对于Agent升级的任务,若“任务状态”为“成功”,可通过操作列的“回退”将当前的任务插件将回退到原版本;若“任务状态”为“超时”,可通过操作列的“重试”重新执行该任务。 图7 Agent维护 父主题: 云资源监控
自动启动,您可以直接到云监控服务查看该资源运行状态并设置告警规则。 主机监控: 通过在弹性云服务器或裸金属服务器中安装云监控服务Agent插件,用户可以实时采集ECS或BMS 1分钟级粒度的监控数据。已上线CPU、内存和磁盘等40余种监控指标。有关主机监控的更多信息,请参阅主机监控简介。
prometheus更好地监控和分析来自 Cloudeye服务的数据。 Grafana是一个开源的可视化和分析平台,支持多种数据源,提供多种面板、插件来快速将复杂的数据转换为漂亮的图形和可视化的工具。将华为云Cloudeye服务接入prometheus后,您可以利用Grafana更好地分
事件ID 事件级别 事件说明 处理建议 Cloud Eye SYS.CES 插件故障事件 agentHeartbeatInterrupted 重要 监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 查看Agent域名是否无法解析。 查看账号是否欠费。
指标数据保留多长时间? 指标数据分为原始指标数据和聚合指标数据。 原始指标数据是指原始采样指标数据,原始指标数据一般保留2天。 聚合指标数据是指将原始指标数据经过聚合处理后的指标数据,聚合指标数据保留时间根据聚合周期不同而不同,通过API获取的聚合指标数据保留时间如下: 表1 聚合指标数据保留时间
调用失败或者回显如下时,请执行5。 图2 获取AK/SK失败 在管理控制台的云监控服务页面,选择“主机监控 > 弹性云服务器”,选择对应的目标云服务器并单击“修复插件配置”。 问题解决,排查结束。 未解决,请执行6。 执行如下命令,检查路由: route -n 当返回如下信息时,表示路由正常: 图3 路由配置正常-Linux
strings 任务ID列表(ROLLBACK和RETRY时必须) 数组长度:1 - 100 version_type 否 String 插件升级时需要选择升级“基础版本”还是“增强版本”,传值“BASIC_VERSION”表示升级成基础版本,传值“ADVANCE_VERSION”表示升级成增强版本
批量修改告警通知屏蔽规则的屏蔽时间 功能介绍 批量修改告警通知屏蔽规则的屏蔽时间 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_
关系型数据库事件 关系型数据库是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。在使用关系型数据库中,需持续关注数据库状态,可通过事件监控,对异常事件告警进行处理,保证业务稳定运行。 表1 RDS重点事件 事件名称 事件说明 处理步骤 创建实例业务失败
查询资源分组下的资源 功能介绍 根据资源分组ID查询资源分组下的资源。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /V1.0/{project_id}/