检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BMS硬件监控插件说明 Agent2.5.6.1版本后集成了物理机硬件监控插件,通过实时巡检发现硬件的亚健康状态,提前规避故障风险,为BMS实例提供全面硬件故障监控能力。 物理机硬件监控插件只针对BMS实例生效,其他云服务器不受其影响。 BMS实例缺失硬件监控插件会导致华为云无法
选择要安装Agent的ECS或BMS,安装Agent插件。 修改待安装Agent的ECS或BMS的DNS并添加安全组,具体步骤请参见修改DNS与添加安全组(Linux)或修改DNS与添加安全组(Windows)。 安装Agent,具体安装步骤请参见安装Agent(Linux)
使用云监控的事件监控功能对服务器运行异常及自动恢复进行监控,订阅事件告警同步进行业务处理。 表1 ECS重点事件 事件名称 事件说明 处理步骤 因硬件故障触发重启 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启,并发送一个“
确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 操作步骤(单节点安装) 安装命令参见操作步骤,需要替换安装命令中,-t后的版本号为支持GPU采集的插件版本号。 操作步骤(多节点批量安装) 参见操作步骤,需要替换安装命令中,-t后的版本号为支持GPU采集的插件版本号。
云监控服务统计的弹性云服务器网络流量与云主机系统内工具检测不一致的问题 因为云监控服务与弹性云服务器系统内指标检测软件的采样周期不同。 云监控服务对弹性云服务器、云硬盘的采样周期是4分钟(云服务器类型为KVM的是5分钟),而系统内工具的采样周期一般为1秒,远远小于云监控服务的采样周期。
Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。 CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下: /var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos 指标 指标名称 指标说明 单位
已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 确保已下载Agent安装脚本,获取脚本的方式如下: 表1 获取Linux镜像的Agent安装脚本
无法正常使用NPU卡 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 重要 容器插件Ascend-Docker-Runtime未安装 安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡
使用具有administrator权限的账户安装,例如administrator用户,并且确保安装成功后的Telescope进程不会被其他软件关闭。 已获取Agent安装包,格式为exe/zip,安装包获取方式如下。 表1 获取Windows镜像的Agent安装包 区域 regionID
主机监控 针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 具体监控指标方面,可
单击“确定”,保存设置。 在控制台修改DNS需重启ECS或BMS后生效。 修改ECS的安全组规则(管理控制台) 本节介绍登录管理控制台后修改ECS安全组规则的操作步骤和方法。本章节以ECS为例介绍如何修改DNS和添加安全组,BMS操作步骤类似。 在ECS详情页,单击安全组页签。 进入安全组列表页。
BMS硬件监控指标采集说明 以下是BMS硬件监控插件对应的监控指标采集说明。 指标分类 指标说明 采集方式 服务器整机信息 服务器整机SN、产品名称、厂家等。 使用dmidecode命令采集。 SSD/HDD 基本信息和SMART信息 包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART
已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 登录方式为账号密码:已收集需要安装Agent的所有主机的IP地址和root用户密码,按照iplist
以利用Grafana更好地分析和展示来自Cloudeye服务的数据。 前提条件 已安装配置CES Exporter。 操作步骤 下载Prometheus软件,下载地址请参见https://prometheus.io/download/。 配置Prometheus,对接cloudeye-exporter。
创建事件监控的告警通知 操作场景 本章节指导用户针对事件监控创建告警规则。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击页面左侧的“事件监控”。 在事件列表页面,单击页面右上角的“创建告警规则”。 在“创建告警规则”界面,配置参数。 配置告警规则的基本信息。
上报事件 功能介绍 事件监控为您提供上报自定义事件的接口,方便您将业务产生的异常事件或重要变更事件采集上报到云监控服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
单击“确定”,保存设置。 在控制台修改DNS需重启ECS或BMS后生效。 安全组 修改ECS的安全组规则(管理控制台) 本节介绍登录管理控制台后修改ECS安全组规则的操作步骤和方法。本章节以ECS为例介绍如何修改DNS和添加安全组,BMS操作步骤类似。 在ECS详情页,单击安全组页签。 进入安全组列表页。
无法正常使用NPU卡 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 重要 容器插件Ascend-Docker-Runtime未安装 安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡
数据库中,需持续关注数据库状态,可通过事件监控,对异常事件告警进行处理,保证业务稳定运行。 表1 RDS重点事件 事件名称 事件说明 处理步骤 创建实例业务失败 创建实例失败产生的事件,一般是磁盘个数,配额大小都很小,底层资源耗尽导致。 检查磁盘个数、配额大小,释放资源后重新创建。
入网带宽和出网带宽出现负值 老版本Agent在统计出入网带宽时,如若装有docker,当容器重启时无法统计虚拟网卡值,由于计算的是差值而导致出现负值的情况。 请参照管理Agent更新Agent。 父主题: 主机监控