检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主机监控 在视频直播中,弹性云服务器作为核心基础,细微的性能变化,可能会引起云服务上的业务受到大幅震荡。为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 本章节介绍如何对弹性云服务器的CPU使用率、内存使用率、磁盘使用率设置告警规则。并在弹性伸缩中配置弹性伸缩策略
问题原因 为避免Agent负载过高,影响主机上的其他业务,云监控服务在Agent占用CPU或内存过高时,提供了熔断机制。当Agent负载过高时,会自动触发熔断,触发熔断机制后,Agent暂时停止工作,不上报监控数据。
支持监控的服务列表 分类 服务 命名空间 维度 监控指标参考文档 计算 弹性云服务器 SYS.ECS Key:instance_id Value:云服务器ID 弹性云服务器的基础监控指标 弹性云服务器中操作系统监控 AGT.ECS Key:instance_id Value:云服务器
一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。
一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 如何选择区域?
入网带宽和出网带宽出现负值 老版本Agent在统计出入网带宽时,如若装有docker,当容器重启时无法统计虚拟网卡值,由于计算的是差值而导致出现负值的情况。 请参照管理Agent更新Agent。 父主题: 主机监控
修订记录 发布日期 修改说明 2024-01-24 第七十次正式发布: 事件监控支持的事件说明新增“数据库代理”事件描述。 Agent版本特性更新Agent版本。 新增创建/删除/复制/修改通知内容模板章节。 2024-01-18 第六十九次正式发布: 新增跨账号查看我的看板章节。
GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降。 FPGA链路故障 FPGALinkFault 紧急 弹性云服务器所在的主机上FPGA卡故障。
GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降。 FPGA链路故障 FPGALinkFault 紧急 弹性云服务器所在的主机上FPGA卡故障。
为什么云服务器看不到内存使用率、磁盘使用率、带内网络流入速率和带内网络流出速率四个监控指标? 当前创建的Linux云服务器,均不支持内存使用率、磁盘使用率、带内网络流入速率和带内网络流出速率四个监控指标。但Windows云服务器是支持这四个指标的。 不同操作系统支持的基础监控指标情况请参考弹性云服务器监控指标支持列表
云监控服务相关概念 使用云监控服务之前,请先了解以下相关概念,从而可以更好的使用云监控服务。 监控指标 聚合 监控面板 主题 告警规则 告警模板 项目 企业项目 监控指标 监控指标是云监控服务的核心概念,通常是指云平台上某个资源的某个维度状态的量化值,如云服务器的CPU使用率、内存使用率等
主机监控Agent对主机的性能会有影响吗? 主机监控Agent占用的系统资源很小,性能基本不会受到影响。 在弹性云服务器中安装Agent资源占用情况如下: CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 在裸金属服务器中安装
Agent插件资源占用和熔断说明 资源占用 Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 熔断 Agent的CPU单核利用率大于10%,或者内存使用超过200M,且连续发生三次。为了保障用户的资源
什么是云监控服务? 云监控服务为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台。使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。云监控服务架构图如图1所示。 图1 云监控服务架构图 云监控服务主要具有以下功能: 自动监控: 云监控服务不需要开通
应用场景 云监控服务为用户提供了非常丰富的使用场景。 云服务监控 用户开通了云监控服务支持的云服务后,即可方便地在云监控Console页面查看您的云产品运行状态和相关指标数据,并对监控项创建告警规则。 主机监控 通过监控ECS或BMS的CPU使用率、内存使用率、磁盘等基础指标,确保
弹性公网IP事件 虚拟私有云为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性,简化用户的网络部署。 当您的弹性云服务器要访问Internet时,您可使用虚拟私有云创建的弹性公网IP绑定到弹性云服务器上,弹性云服务器即可连接公网。不同弹性公网IP还可以共享带宽
主机监控 针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 具体监控指标方面,可设置
安装云专线指标采集插件 云专线插件是用于检测云专线端到端的网络质量的插件,主要包含网络时延和丢包率两个指标。 云专线插件分为两种: dc-nqa-collector:用于监控自动化专线,探测远端子网的时延和丢包率。 history-dc-nqa-collector:用于监控手工专线
使用事件监控 事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控,并在事件发生时进行告警。 事件即云监控保存并监控的云服务资源的关键操作。您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如删除虚拟机、重启虚拟机等
事件监控简介 事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。事件监控不依赖于Agent插件。 事件即云监控服务保存并监控的云服务资源的关键操作。您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作