检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主机监控配置监控及告警的全流程介绍 主机资源作为最重要的云上资源,如何做好对它的监控、告警,在实际的运维过程中尤为重要,本文主要介绍主机如何进行监控及配置告警。 应用场景 当用户购买了主机资源后,对于资源的运行状态需要进行必要的监控,以及对重点业务指标进行配置监控告警,能及时准确掌握主机资源的云上运行状态。
安装Agent插件后,修复插件配置为用户提供了一键配置AK/SK、RegionID、ProjectId的功能,省去了繁琐的手动配置步骤,提升配置效率。 目前大部分区域已上线一键式授予该区域插件权限功能,即自动修复插件配置。您可以单击“主机监控 - 弹性云服务器”页面上方的“一键配置”开启该区域插件权限
基本概念 账号 用户注册时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。
在众包平台活动期间,网站首页、登录页面、店铺详情页都会出现瞬时间的访问流量变大的情况,因此需随时监控出网带宽。 并且可能受到DDOS攻击或业务量大时连接数突增,导致业务访问变慢,预计SNAT连接数会达到平时访问量的2-3倍,所以需随时监控SNAT连接数。 操作步骤 登录管理控制台。 在管理控制台左上角选择区域和项目。
资源分组支持的云服务 由于智能创建资源分组的能力依赖云服务对接config资源管理服务,可能存在部分云服务在某些region未对接config的情况,具体支持情况可在页面配置资源分组时查看确认。 云服务 英文简称 产品 手动添加 企业项目 标签 实例名称 组合匹配 弹性云服务器 ECS
停用告警规则 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击“告警 > 告警规则”,进入告警规则界面。 在“告警规则”界面,单击状态为“已启用”的告警规则所在行“操作”列的“更多 > 停用”,在弹出的“停用告警规则”界面,单击“确定”可以停用告警规则。 在“
表1 云服务器列表和分组规划 云服务器名称 分组 是否需要安装Agent 所属部门 ECS-01 开发组资源 是 开发项目组 ECS-02 开发组资源 是 开发项目组 ECS-03 无需分组 否 测试项目组 ECS-04 无需分组 否 测试项目组 前提条件 ECS01和ECS02已经
查看主机监控的资源详情 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击左侧导航栏的“主机监控 > 弹性云服务器”。 单击需要查看资源详情的监控名称,进入“操作系统监控”界面。 单击右上角“查看资源详情”,弹出“查看资源详情”窗口。 可查看该监控的实例名称、实例ID、资源分组情况。
安装Agent方式有如下几种,你可以根据你所使用的服务的操作系统类型、是否有多个服务器以及个人习惯选择任何一种或多种安装方式: 安装场景 支持的服务 参考章节 控制台界面安装/升级Agent ECS 在控制台界面安装/升级Agent 安装Agent(Linux) ECS、BMS 单台主机下安装Agent
指标ID,例如弹性云服务器的监控指标CPU使用率,对应的metric_name为cpu_util。各服务监控指标请参考支持监控的服务列表。 表5 dimensions字段数据结构说明 名称 是否必选 参数类型 说明 name 是 String 监控维度名称,例如弹性云服务器的维度为in
单击资源分组列表中待查看的分组名称,进入该资源分组的“资源概览”界面。 单击右侧的“告警规则”,即可展示该资源分组下的全部告警规则。 在该资源分组的“告警规则”界面中,可快速创建资源分组的告警规则。具体创建步骤请参见创建告警规则和通知。 图1 资源分组中的告警规则 父主题: 查看资源分组
日志监控提供了针对日志内容的实时监控能力。通过云监控服务和云日志服务的结合,用户可以针对日志内容进行监控统计、设置告警规则等,降低用户监控日志的运维成本,简化用户使用监控日志的流程。 事件监控 事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。
为了更好监控弹性负载均衡服务,需要先开启负载均衡ELB的健康检查,详情参见健康检查异常如何排查?,建议设置负载均衡ELB网络流出速率的80%作为告警阈值。 建议将RDS的CPU使用率告警阈值设置为80%,连续三次超过阈值后开始告警。磁盘使用率、IOPS、使用中的数据库连接数等其他监控指标可根据您的实际情况来设置。
主机监控分为基础监控、操作系统监控和进程监控。 基础监控:ECS自动上报的监控指标,数据采集频率为5分钟1次。可以监控CPU使用率等指标,详见云产品监控指标。BMS不支持基础监控,需要安装主机监控Agent插件。 操作系统监控:通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监
未提供认证信息,或认证信息错误。 403 Forbidden 请求页面被禁止访问。 408 Request Timeout 请求超出了服务器的等待时间。 429 Too Many Requests 当前请求过多。 500 Internal Server Error 请求未完成,服务异常。 503
主机监控 针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 具体监控指标方面,可
站点监控 大量的商品类目、用户信息、交易数量、店铺展示信息,会导致不同用户访问网站速度变慢。可使用站点监控对网站的可用性进行监控,并且对类目、用户、交易、店铺等接口进行持续拨测,测试接口的可用性,判断业务系统是否正常。 本章节以www.example.com为例,创建站点监控,并
Request 服务器未能处理请求。 401 Unauthorized 被请求的页面需要用户名和密码。 403 Forbidden 对被请求页面的访问被禁止。 404 Not Found 服务器无法找到被请求的页面。 405 Method Not Allowed 请求中指定的方法不被允许。
支持的云产品以及云产品对应的监控指标说明,请参见云产品监控指标。 弹性云服务器-云服务器 资源层级 当告警类型选择指标时,需选择告警规则的资源层级,可选择云产品或子维度,推荐选择云产品。 以弹性云服务器ECS为例:用户购买了云产品(ECS虚拟机),根据指标划分了多个子维度(包含磁盘、挂载点、进程等)。
拓展标签支持情况 该插件对于已对接云监控的云服务均支持指标数据的导出。为提高云服务资源的识别度、可读性,插件对于以下服务支持导出资源属性label,如ECS实例会增加hostname、ip等label,同时支持将华为云标签转化为label,满足对资源自定义label的诉求,具体如下表所示。 表1