确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 操作步骤(单节点安装) 安装命令参见Linux系统,需要替换安装命令中,-t后的版本号为支持GPU采集的插件版本号。 操作步骤(多节点批量安装) 参见批量安装Agent,需要替换安装命令中,-t后的版本号为支持GPU采集的插件版本号。
使用云监控的事件监控功能对服务器运行异常及自动恢复进行监控,订阅事件告警同步进行业务处理。 表1 ECS重点事件 事件名称 事件说明 处理步骤 因硬件故障触发重启 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启,并发送一个“
云监控服务统计的弹性云服务器网络流量与云主机系统内工具检测不一致的问题 因为云监控服务与弹性云服务器系统内指标检测软件的采样周期不同。 云监控服务对弹性云服务器、云硬盘的采样周期是4分钟(云服务器类型为KVM的是5分钟),而系统内工具的采样周期一般为1秒,远远小于云监控服务的采样周期。
BMS硬件监控插件说明 Agent2.5.6.1版本后集成了物理机硬件监控插件,通过实时巡检发现硬件的亚健康状态,提前规避故障风险,为BMS实例提供全面硬件故障监控能力。 物理机硬件监控插件只针对BMS实例生效,其他云服务器不受其影响。 BMS实例缺失硬件监控插件会导致华为云无法
已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 确保已下载Agent安装脚本,获取脚本的方式如下: 表2 获取Linux镜像的Agent安装脚本
数据库中,需持续关注数据库状态,可通过事件监控,对异常事件告警进行处理,保证业务稳定运行。 表1 RDS重点事件 事件名称 事件说明 处理步骤 创建实例业务失败 创建实例失败产生的事件,一般是磁盘个数,配额大小都很小,底层资源耗尽导致。 检查磁盘个数、配额大小,释放资源后重新创建。
Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。 CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下: /var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos 指标 指标名称 指标说明 取值范围
上报事件 功能介绍 事件监控为您提供上报自定义事件的接口,方便您将业务产生的异常事件或重要变更事件采集上报到云监控服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
利用Grafana更好地分析和展示来自Cloud Eye服务的数据。 前提条件 已安装配置CES Exporter。 操作步骤 下载Prometheus软件,下载地址请参见https://prometheus.io/download/。 配置Prometheus,对接cloudeye-exporter。
无法正常使用NPU卡 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 重要 容器插件Ascend-Docker-Runtime未安装 安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡
入网带宽和出网带宽出现负值 老版本Agent在统计出入网带宽时,如若装有docker,当容器重启时无法统计虚拟网卡值,由于计算的是差值而导致出现负值的情况。 请参照管理Agent更新Agent。 父主题: 主机监控
如何通过修改配置文件调整Agent资源消耗阈值? 本章节介绍如何通过修改配置文件调整Agent资源消耗阈值,具体操作步骤如下: 使用root账号,登录Agent不上报数据的ECS或BMS。 修改配置文件conf.json。 执行以下命令,切换至Agent安装路径的bin下。 Windows系统:
在查看主机监控的监控指标时,如果出现操作系统监控GPU页面显示无记录的问题,请先确认您的机器是否支持GPU。若您的机器支持GPU且驱动运行正常,请参考以下操作步骤升级插件为增强版: 卸载当前基础版Agent: Linux平台:登录机器执行命令 bash /usr/local/uniagent/script/uninstall
使用须知 如果在创建告警规则时关闭“发送通知”开关,则不会收到告警通知。可以通过云监控服务的告警记录功能查看告警规则的状态变化。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击页面左侧的“事件监控”。 在事件监控页面,单击页面右上角的“创建告警规则”。 在“创建告警规则”界面,配置参数。
主机监控 针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置Agent。 具体监控指标方面,可
无法正常使用NPU卡 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 重要 容器插件Ascend-Docker-Runtime未安装 安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡
BMS硬件监控指标采集说明 以下是BMS硬件监控插件对应的监控指标采集说明。 指标分类 指标说明 采集方式 服务器整机信息 服务器整机SN、产品名称、厂家等。 使用dmidecode命令采集。 SSD/HDD 基本信息和SMART信息 包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART
单击“确定”,保存设置。 在控制台修改DNS需重启ECS或BMS后生效。 安全组 修改ECS的安全组规则(管理控制台) 本节介绍登录管理控制台后修改ECS安全组规则的操作步骤和方法。本章节以ECS为例介绍如何修改DNS和添加安全组,BMS操作步骤类似。 在ECS详情页,单击安全组页签。 进入安全组列表页。
事件监控 在实际的业务的运行中,ECS、BMS可随时根据业务调整,进行删除、重启、关闭、删除网卡、删除安全组等操作。因此,可以使用事件监控随时监控ECS、BMS的运行状态。 操作步骤 登录管理控制台。 在管理控制台左上角选择区域和项目。 单击“服务列表 > 云监控服务”。 单击页
单击“确定”,保存设置。 在控制台修改DNS需重启ECS或BMS后生效。 修改ECS的安全组规则(管理控制台) 本节介绍登录管理控制台后修改ECS安全组规则的操作步骤和方法。本章节以ECS为例介绍如何添加安全组,BMS操作步骤类似。 在ECS详情页,单击安全组页签。 进入安全组列表页。
您即将访问非华为云网站,请注意账号财产安全