云服务器内容精选

华为云首页用户手册

云监控服务 CES

云监控服务 CES-手动配置Agent（Linux，可选）:确认正在使用的Agent版本

确认正在使用的Agent版本使用root账号，登录E CS 。执行如下命令，确认使用Agent的版本。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi 返回“old agent”，表示使用老版本Agent，手动配置Agent操作请参考操作步骤（老版本Agent）。返回版本号，表示使用新版本Agent，手动配置Agent操作请参考请使用操作步骤（新版本Agent）。返回“0”，表示未安装Agent。

云监控服务 CES
云监控服务 CES-安装GPU指标集成插件:安装lspci工具

安装lspci工具登录弹性云服务器。更新镜像源，获取安装依赖。 wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh 更多内容，请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)？执行以下命令，安装lspci工具。 CentOS系统： yum install pciutils Ubuntu系统： apt install pciutils 执行以下命令，查看安装结果。 lspci -d 10de: 图1 安装结果如果安装完lspci后，安装结果显示命令不存在，可通过重启云服务器来解决。

云监控服务 CES 其他插件安装说明
云监控服务 CES-安装GPU指标集成插件:前提条件

前提条件已安装GPU驱动，未安装lspci工具的云服务器影响GPU掉卡事件的上报。如果您的弹性云服务器未安装GPU驱动，请参见GPU驱动概述安装GPU驱动。安装GPU驱动需使用默认路径。 GPU驱动安装完后，需重启GPU加速型实例，否则可能导致采集GPU指标及上报GPU事件失败。 GPU驱动正常安装后，最多10分钟将在控制台看到采集到的GPU指标数据。已安装lspci工具，未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。安装lspci工具的方法，请参见安装lspci工具。确保云服务器的安装目录都有读写权限，并且安装成功后的Telescope进程不会被其他软件关闭。

云监控服务 CES 其他插件安装说明
云监控服务 CES-跨账号查看我的看板:约束与限制

约束与限制目前只有“我的看板”提供跨账号功能，且只能查看，不能编辑。该功能当前在华南-广州-友好用户环境、土耳其-伊斯坦布尔、西南-贵阳一、乌兰察布-汽车一、拉美-墨西哥城一、亚太-新加坡、非洲-约翰内斯堡、亚太-曼谷、中国-香港、拉美-墨西哥城二、亚太-雅加达、华南-广州、华北-北京一、华北-乌兰察布一、华北-北京四、拉美-圣地亚哥、华东-上海一、拉美-圣保罗一、中东-利雅得和华东-青岛区域开放。

云监控服务 CES 监控看板（新版）
云监控服务 CES-资源分组支持的云服务

资源分组支持的云服务由于智能创建资源分组的能力依赖云服务对接config资源管理服务，可能存在部分云服务在某些region未对接config的情况，具体支持情况可在页面配置资源分组时查看确认。云服务英文简称产品手动添加企业项目标签实例名称组合匹配弹性云服务器 ECS 云服务器 √ √ √ √ √ 裸金属服务器 BMS 云服务器 √ √ √ √ √ API网关专享版 APIC APIG实例 √ √ √ √ √ API网关 APIG 接口 √ × × × × 弹性伸缩 AS 弹性伸缩组 √ √ √ √ √ 云堡垒机 CBH CBH √ √ √ √ √ 云备份 CBR 存储库 √ × × × × 云连接 CC 云连接 √ × × × × 云数据迁移服务 CDM 实例 √ × × × × 内容分发网络 CDN 域名 √ √ × √ × 云防火墙 CFW 云防火墙实例 √ × × × × 表格存储服务 CloudTable 集群ID √ √ × √ × 云专线 DCAAS 物理连接 √ × × × × 历史专线 √ × × × × 虚拟接口 √ × × × × 虚拟网关 √ × × × × 分布式缓存服务 DCS DCSRedis实例 √ √ √ √ √ DCS IMDG实例 √ × × × × DCS Memcached实例 √ × × × × 分布式数据库中间件(newddm) DDMS DDM实例 √ √ √ √ √ 文档数据库服务 DDS 文档数据库实例 √ √ √ √ √ 数据湖探索 DLI 队列 √ × × × × 分布式消息服务 DMS Kafka专享版 √ √ √ √ √ RabbitMQ实例 √ √ √ √ √ RocketMQ专享版 √ √ √ √ √ 队列消费组 √ × × × × 队列 √ × × × × 云解析服务 DNS 记录集 √ √ √ √ √ 域名 √ √ √ √ √ 数据复制服务 DRS DRS运行实例 √ √ √ √ √ 数据仓库服务 DWS 数据仓库服务 √ √ √ √ √ 数据仓库节点 √ × × × × 数据仓库实例 √ × × × × 弹性文件服务Turbo EFS 实例 √ √ × √ × 弹性负载均衡 ELB 弹性负载均衡 √ √ √ √ √ 经典型负载均衡器 √ × × × × 云搜索服务 ES CSS 集群 √ √ √ √ √ 云硬盘 EVS 磁盘 √ √ × √ × 函数工作流 FunctionGraph 租户 √ × × × × 函数流 √ × × × × 函数 √ × × × × 云数据库 GaussDB GAUSSDB 云数据库 GaussDB实例 √ × × × × 云数据库 GaussDB(for MySQL) GaussDB(for MySQL) GaussDBforMySQ L实例 √ √ √ √ √ 全域弹性公网IP和带宽 GEIP 公网带宽 √ × × × × 全域弹性公网ip √ × × × × 全域弹性公网ip段 √ × × × × 图引擎服务 GES 图实例 √ √ √ √ √ 主机安全服务 HSS 主机实例 √ √ √ √ √ 主机安全 √ √ √ √ √ 视频直播 LIVE 域名 √ × × × × Mapreduce服务 MRS 集群 √ √ √ √ √ NAT网关 NAT 私网NAT网关 √ × × × × 公网NAT网关 √ √ √ √ √ 云数据库 GeminiDB NoSQL Cassandra √ √ √ √ √ Redis √ √ √ √ √ InfluxDB √ × × × × MongoDB √ × × × × 对象存储服务 OBS 桶名称 √ √ √ √ √ 关系型数据库 RDS PostgreSQL实例 √ √ √ √ √ MySQL实例 √ √ √ √ √ MicrosoftSQLServer实例 √ √ √ √ √ ROMA ROMA ROMA实例 √ × × × × 弹性文件服务 SFS SFS容量型 √ × × × × 通用文件系统 √ × × × × 虚拟私有云 VPC 带宽 √ √ √ √ × 弹性IP √ √ √ √ × 虚拟专用网络 VPN VPN连接 √ √ × √ × 企业版站点入云VPN网关 √ √ √ √ √ 企业版站点入云VPN连接 √ √ √ √ √ 企业版终端入云VPN网关 √ √ √ √ √ 新VPN连接实例 √ × × × × 独享型VPN连接 √ × × × × Web应用防火墙 WAF 防护域名 √ √ × √ × 独享实例 √ × × × × 父主题：资源分组

云监控服务 CES 资源分组
云监控服务 CES-批量安装Agent:操作步骤

操作步骤使用ssh以root用户登录到已安装Agent的主机中。批量安装Agent，分别对应下面两种安装命令。当获取到的Agent安装脚本为batch_agent_install.sh时，执行以下命令： cd /usr/local && curl -k -O ${download_url} && bash batch_agent_install.sh -t ${version} 当获取到的Agent安装脚本为agentBatchPackage.sh时，执行以下命令： cd /usr/local && curl -k -O ${download_url} && bash agentBatchPackage.sh 将安装命令中的${download_url}替换成表1中的下载路径，将${version}替换成Agent版本特性中的版本。例如，在北京一的安装命令为： cd /usr/local && curl -k -O https://obs.cn-north-1.myhuaweicloud.com/uniagent-cn-north-1/script/batch_agent_install.sh && bash batch_agent_install.sh -t 2.5.6 安装完成后，登录云监控服务管理控制台，单击左侧导航栏的“主机监控”。查看所有已安装Agent的弹性云服务器列表。 Agent插件配置完成后，因监控数据暂未上报，插件状态仍显示“未安装”，等待3-5分钟，刷新即可。

云监控服务 CES
云监控服务 CES-批量安装Agent:前提条件

前提条件已配置DNS和安全组，配置方法参考如何配置DNS和安全组？。已配置委托，配置方法参考如何配置委托？。确保操作步骤中的安装目录都有读写权限，并且安装成功后的Telescope进程不会被其他软件关闭。登录方式为账号密码：已收集需要安装Agent的所有主机的IP地址和root用户密码，按照iplist.txt格式整理好，并上传到第一台机器的/usr/local目录下 iplist.txt格式为“IP地址,root用户密码”，每个保持一行。示例如下所示（样例中abcd为密码，请按实际值填写）。 192.168.1.1,abcd 192.168.1.2,abcd 登录方式为秘钥：已收集需要安装Agent的所有ECS的IP地址，按照iplist.txt格式整理好，并上传到第一台机器的/usr/local目录下，上传秘钥文件user.pem到ECS的/usr/local目录下。 iplist.txt格式为“IP地址”，每个保持一行。示例如下所示： 192.168.1.1 192.168.1.2 确保已下载Agent安装包，获取包的方式如下：表1 获取Linux批量安装Agent的安装包区域 regionID 下载路径华北-北京一 cn-north-1 https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/batch_agent_install.sh 华北-北京四 cn-north-4 https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh 华北-乌兰察布一 cn-north-9 https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/batch_agent_install.sh 华南-广州 cn-south-1 https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/batch_agent_install.sh 华南-广州-友好用户环境 cn-south-4 https://telescope-cn-south-4.obs.cn-south-4.myhuaweicloud.com/scripts/agentBatchPackage.sh 华南-深圳 cn-south-2 https://uniagent-cn-south-2.obs.cn-south-2.myhuaweicloud.com/package/batch_agent_install.sh 华东-上海一 cn-east-3 https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/batch_agent_install.sh 华东-上海二 cn-east-2 https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/batch_agent_install.sh 华东-青岛 cn-east-5 https://uniagent-cn-east-5.obs.cn-east-5.myhuaweicloud.com/package/batch_agent_install.sh 西南-贵阳一 cn-southwest-2 https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/batch_agent_install.sh 中国-香港 ap-southeast-1 https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/batch_agent_install.sh 亚太-曼谷 ap-southeast-2 https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/batch_agent_install.sh 亚太-新加坡 ap-southeast-3 https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/batch_agent_install.sh 亚太-雅加达 ap-southeast-4 https://uniagent-ap-southeast-4.obs.ap-southeast-4.myhuaweicloud.com/package/batch_agent_install.sh 非洲-约翰内斯堡 af-south-1 https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/batch_agent_install.sh 拉美-圣地亚哥 la-south-2 https://uniagent-la-south-2.obs.la-south-2.myhuaweicloud.com/script/agent_install.sh 拉美-圣保罗一 sa-brazil-1 https://uniagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/package/batch_agent_install.sh 拉美-墨西哥城一 na-mexico-1 https://uniagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/package/batch_agent_install.sh 拉美-墨西哥城二 la-north-2 https://uniagent-la-north-2.obs.la-north-2.myhuaweicloud.com/package/batch_agent_install.sh 中东-利雅得 me-east-1 https://uniagent-me-east-1.obs.me-east-1.myhuaweicloud.com/package/batch_agent_install.sh

云监控服务 CES
云监控服务 CES-云产品监控指标

云产品监控指标全局级服务的监控数据默认保存在华北-北京四，如需要查询数据，请在华北-北京四查看。分类服务命名空间维度监控指标参考文档计算弹性云服务器 SYS.ECS Key：instance_id Value：云服务器ID 弹性云服务器的基础监控指标弹性云服务器中操作系统监控 AGT.ECS Key：instance_id Value：云服务器ID Key：disk Value：磁盘 Key：mount_point Value：挂载点 Key：proc Value：进程 Key：gpu Value：GPU Key：npu Value：NPU Key：davp Value：DAVP 弹性云服务器操作系统监控的监控指标（安装Agent）裸金属服务器 SERVICE.BMS Key：instance_id Value：云服务器ID 裸金属服务器操作系统监控的监控指标（安装Agent）弹性伸缩 SYS.AS Key：AutoScalingGroup Value：弹性伸缩组的ID 弹性伸缩的监控指标说明云手机服务器 SYS.CPH Key：instance_id Value：云手机服务器ID Key：cph_id Value：云手机ID Key：disk_name Value：磁盘名称 Key：gpu_index Value：GPU名称云手机服务器的监控指标说明函数工作流服务 SYS.FunctionGraph Key：package-functionname Value：应用名-函数名函数工作流服务的监控指标说明存储云硬盘（仅当挂载到云服务器时） SYS.EVS Key：disk_name Value：云服务器实例ID-盘符名（例如sda为盘符名）云硬盘的监控指标说明对象存储服务 SYS.OBS Key：bucket_name Value：桶名 Key：tenant_id Value：租户Id Key：api_name Value：接口 Key：http_code Value：HTTP返回码 Key：domain_name Value：域名对象存储服务监控指标说明弹性文件服务 SYS.SFS Key：share_id Value：文件系统弹性文件服务监控指标说明云备份 SYS.CBR Key：instance_id Value：存储库名称/ID 云备份监控指标说明云存储网关 SYS.CSG Key：gateway_id Value：网关ID 云存储网关监控指标说明弹性文件服务Turbo SYS.EFS Key：efs_instance_id Value：实例 SFS Turbo监控指标说明网络弹性公网IP和带宽 SYS.VPC Key：publicip_id Value：弹性公网IP ID Key：bandwidth_id Value：带宽ID 虚拟私有云的监控指标说明弹性负载均衡 SYS.ELB Key：lbaas_pool_id Value：后端服务器组的ID Key：lbaas_instance_id Value：独享/共享型负载均衡器的ID Key：lbaas_listener_id Value：独享/共享型负载均衡监听器的ID 弹性负载均衡的监控指标说明云专线 SYS.DCAAS Key：direct_connect_id Value：物理连接 Key：history_direct_connect_id Value：历史物理连接 Key：virtual_interface_id Value：虚拟接口 Key：virtual_gateway_id Value：虚拟网关说明：虚拟接口维度针对的是一站式专线，物理专线维度针对的是手工专线。云专线的监控指标说明虚拟专用网络 SYS.VPN Key：evpn_connection_id Value：VPN连接虚拟专用网络的监控指标说明 NAT网关 SYS.NAT Key：nat_gateway_id Value：NAT网关实例标识 Key：vpc_nat_gateway_id Value：私网NAT实例标识 NAT网关的监控指标说明企业路由器 SYS.ER Key：er_instance_id Value：企业路由器实例 Key：er_attachment_id Value：企业路由器连接企业路由器的监控指标说明云连接 SYS.CC Key：cloud_connect_id Value：云连接ID Key：bwp_id Value：带宽包ID Key：region_bandwidth_id Value：域间带宽ID 云连接的监控指标说明全球加速 SYS.GA Key：ga_accelerator_id Value：全球加速实例的ID Key：ga_listener_id Value：全球加速监听器的ID Key：ga_source_pop Value：全球加速实例的接入点 Key：ga_destination_region Value：全球加速实例的目的区域 Key：ga_source_area Value：全球加速实例的接入大区 Key：ga_listener_region Value：全球加速监听器和目的区域 Key：ga_pop_listener Value：全球加速接入点和监听器 Key：ga_pop_region Value：全球加速接入点和目的区域 Key：ga_pop_listener_region Value：全球加速接入点、监听器和目的区域 Key：ga_source_destination_area Vaue：全球加速接入大区和目的大区全球加速的监控指标说明企业连接 SYS.EC Key：enterprise_connect_network Value：企业连接网络 Key：intelligent_enterprise_gateway Value：智能企业网关 Key：ieg_equipment Value：网关设备企业连接的监控指标说明应用中间件分布式消息服务 SYS.DMS 请参考右侧相关文档链接页面。分布式消息服务Kafka版的监控指标分布式消息服务RabbitMQ的监控指标分布式消息服务RocketMQ版的监控指标 API网关 SYS.APIG Key：api_id Value：API API网关的监控指标说明 API专享版网关 SYS.APIC Key：instance_id Value：专享版API网关 Key：api_id Value：API API网关的监控指标说明分布式缓存服务 SYS.DCS Key：dcs_instance_id Value：Redis实例 Key：dcs_cluster_redis_node Value：数据节点 Key：dcs_cluster_proxy_node Value：Redis3.0 Proxy集群实例Proxy节点 Key：dcs_cluster_proxy2_node Value：Redis4.0/Redis5.0 Proxy集群实例Proxy节点 Key：dcs_memcached_instance_id Value：Memcached实例分布式缓存服务的监控指标说明应用与数据集成平台 SYS.ROMA 请参考右侧相关文档链接页面。应用与数据集成平台的监控指标说明数据库关系型数据库 SYS.RDS 请参考右侧相关文档链接页面。 MySQL的监控指标说明 MariaDB的监控指标说明 PostgreSQL的监控指标说明 SQL Server的监控指标说明文档数据库 SYS.DDS Key：mongodb_node_id Value：文档数据库节点ID Key：mongodb_instance_id Value：文档数据库实例ID 文档数据库的监控指标说明分布式数据库中间件 SYS.DDMS Key：node_id Value：DDM节点分布式数据库中间件的监控指标说明云数据库GaussDB NoSQL SYS.NoSQL 请参考右侧相关文档链接页面。云数据库GaussDB(for Cassandra)的监控指标说明云数据库GaussDB(for Mongo)的监控指标说明云数据库GaussDB(for Influx)的监控指标说明云数据库GaussDB(for Redis)的监控指标说明云数据库GaussDB(for MySQL) SYS.GAUSSDB Key：gaussdb_mysql_instance_id Value：GaussDB(for MySQL)实例ID Key：gaussdb_mysql_node_id Value：GaussDB(for MySQL)实例节点ID Key：dbproxy_instance_id Value：GaussDB(for MySQL)Proxy实例ID Key：dbproxy_node_id Value：GaussDB(for MySQL)Proxy节点ID 云数据库GaussDB(for MySQL)的监控指标说明云数据库 GaussDB SYS.GAUSSDBV5 Key：gaussdbv5_instance_id Value：GaussDB实例 Key：gaussdbv5_node_id Value：GaussDB节点 Key：gaussdbv5_component_id Value：GaussDB组件云数据库 GaussDB的监控指标说明数据复制服务 SYS.DRS Key：instance_id Value：数据复制服务实例ID 数据复制服务的监控指标说明迁移云数据迁移 SYS.CDM Key：instance_id Value：云数据迁移服务实例云数据迁移的监控指标说明大数据数据仓库服务 SYS.DWS Key：datastore_id Value：数据仓库集群ID Key：dws_instance_id Value：数据仓库节点ID 数据仓库服务的监控指标说明云搜索服务 SYS.ES Key：cluster_id Value：集群id Key：instance_id Value：实例id 云搜索服务的监控指标说明数据湖探索 SYS.DLI Key：queue_id Value：队列 Key：flink_job_id Value：Flink作业 Key：elastic_resource_pool_id Value：弹性资源池数据湖探索的监控指标说明数据接入服务 SYS.DAYU Key：stream_id Value：实时数据接入数据接入服务的监控指标说明表格存储服务 SYS.CloudTable Key：cluster_id Value：CloudTable集群ID Key：instance_name Value：CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明人工智能 ModelArts SYS.ModelArts Key：service_id Value：在线服务ID Key：model_id Value：模型负载ID ModelArts的监控指标说明图像搜索服务 SYS.IS Key：instanceName Value：实例名称图形搜索服务的监控指标说明图像识别 SYS.IRS Key：call_of_interface Value：接口图像识别的监控指标说明自然语言处理 SYS.NLP Key：call_of_interface Value：接口自然语言处理的监控指标说明文字识别 SYS.OCR Key：call_of_interface Value：接口文字识别的监控指标说明图引擎服务 SYS.GES Key：instance_id Value：图引擎服务实例图引擎服务的监控指标说明语音交互服务 SYS.SIS Key：interface Value：接口语音交互服务的监控指标说明安全与合规 Web应用防火墙 SYS.WAF Key：instance_id Value：独享引擎实例 Key：waf_instance_id Value：云模式实例 WAF监控指标说明数据库安全服务 SYS.DBSS Key：audit_id Value：实例数据库安全服务的监控指标说明云防火墙 SYS.CFW Key：fw_instance_id Value：云防火墙实例云防火墙的监控指标说明 DDoS防护 SYS.DDOS Key：zone_ip Value：防护IP Key：instance_id Value：实例ID DDoS防护的监控指标说明云堡垒机 SYS.CBH Key：server_id Value：CBH实例ID 云堡垒机的监控指标说明企业主机安全 SYS.HSS Key：host_id Value：主机实例企业主机安全的监控指标说明企业应用应用与数据集成平台 ROMA Connect SYS.ROMA Key：kafka_groups Value：消费组 Key：kafka_groups_topics Value：队列 Key：kafka_groups_partitions Value：分区应用与数据集成平台的监控指标说明云解析服务 SYS.DNS Key：resource Value：云解析服务实例的类型 Key：resourceId Value：云解析服务实例的ID Key：resourceName Value：云解析服务实例的名称 Key：domainId Value：用户ID 云解析服务的监控指标说明 CDN与智能边缘智能边缘小站 SYS.IES Key：site_id Value：边缘小站ID 智能边缘小站的监控指标说明内容分发网络 SYS.CDN Key：domain_name Value：域名内容分发网络的监控指标说明视频视频直播 SYS.Live Key：domain Value：域名视频直播的监控指标说明管理与监管消息通知服务 SYS. SMN Key：topic_id Value：主题的ID 消息通知服务的监控指标说明

云监控服务 CES
云监控服务 CES-修改DNS与添加安全组（Linux）:修改ECS的安全组规则（管理控制台）

修改ECS的安全组规则（管理控制台）本节介绍登录管理控制台后修改ECS安全组规则的操作步骤和方法。本章节以ECS为例介绍如何修改DNS和添加安全组，BMS操作步骤类似。在ECS详情页，单击安全组页签。进入安全组列表页。单击具体的安全组名。单击“更改安全组规则”。进入安全组详情页。 BMS的操作步骤：请单击表格中左上角的安全组ID。在对应安全组“操作”列单击“配置规则”。在“出方向规则”页签下单击“添加规则”。按表1所示添加规则。表1 安全组规则优先级策略类型协议端口目的地址说明 1 允许 IPv4 TCP 80 100.125.0.0/16 用于从OBS桶下载Agent包到ECS或BMS中、获取ECS或BMS的元数据信息与鉴权信息。 1 允许 IPv4 TCP 53 100.125.0.0/16 用于DNS解析域名，下载Agent时解析OBS地址、发送监控数据时解析云监控服务Endpoint地址。 1 允许 IPv4 UDP 53 100.125.0.0/16 用于DNS解析域名，下载Agent时解析OBS地址、发送监控数据时解析云监控服务Endpoint地址。 1 允许 IPv4 TCP 443 100.125.0.0/16 采集监控数据到云监控服务端。

云监控服务 CES
云监控服务 CES-修改DNS与添加安全组（Linux）:修改DNS（命令行方式）

修改DNS（命令行方式）本节介绍使用命令行方式添加域名解析地址至resolv.conf文件的操作步骤和方法。如果想要使用管理控制台方式，请参考修改DNS（管理控制台方式）。使用root账号，登录ECS。输入“vi /etc/resolv.conf”，打开文件。在文件中添加“nameserver 100.125.1.250”和“nameserver 100.125.21.250”，输入：wq，按“Enter”保存并退出。图1 添加域名解析地址（Linux）不同区域nameserver不同，详细请参考华为云提供的内网 DNS地址是多少？

云监控服务 CES
云监控服务 CES-手动配置Agent（Windows，可选）:确认正在使用的Agent版本

确认正在使用的Agent版本使用管理员账号，登录ECS。查看安装路径，确认使用Agent的版本。老版本Agent安装路径为“C:\Program Files\telescope”，手动配置Agent操作请参考操作步骤（老版本Agent）。新版本Agent安装路径为“C:\Program Files\uniagent\extension\install\telescope”，手动配置Agent操作请参考操作步骤（新版本Agent）。

云监控服务 CES
云监控服务 CES-修改DNS与添加安全组（Windows）:修改ECS的安全组规则（管理控制台）

修改ECS的安全组规则（管理控制台）本节介绍登录管理控制台后修改ECS安全组规则的操作步骤和方法。本章节以ECS为例介绍如何修改DNS和添加安全组，BMS操作步骤类似。在ECS详情页，单击安全组页签。进入安全组列表页。单击具体的安全组名。单击“更改安全组规则”。进入安全组详情页。 BMS的操作步骤：请单击表格中左上角的安全组ID。在对应安全组“操作”列单击“配置规则”。在“出方向规则”页签下单击“添加规则”。按表1所示添加规则。表1 安全组规则优先级策略类型协议端口目的地址说明 1 允许 IPv4 TCP 80 100.125.0.0/16 用于从OBS桶下载Agent包到ECS或BMS中、获取ECS或BMS的元数据信息与鉴权信息。 1 允许 IPv4 TCP 53 100.125.0.0/16 用于DNS解析域名，下载Agent时解析OBS地址、发送监控数据时解析云监控服务Endpoint地址。 1 允许 IPv4 UDP 53 100.125.0.0/16 用于DNS解析域名，下载Agent时解析OBS地址、发送监控数据时解析云监控服务Endpoint地址。 1 允许 IPv4 TCP 443 100.125.0.0/16 采集监控数据到云监控服务端。

云监控服务 CES 安装配置Agent
云监控服务 CES-事件监控支持的事件说明

事件监控支持的事件说明表1 弹性云服务器事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 ECS SYS.ECS 因系统故障触发重部署 startAutoRecovery 重要弹性云服务器所在的主机出现故障时，系统会自动将弹性云服务器迁移至正常的物理机，迁移过程中系统会自动重启云服务器。等待虚拟机迁移成功，状态恢复正常。实例重部署开始。因系统故障重部署已完成 endAutoRecovery 重要当自动迁移完成后，弹性云服务器已恢复正常。确认业务是否恢复。实例重部署结束。实例重部署超时 faultAutoRecovery 重要迁移弹性云服务器至正常的物理机操作超时。确认应用集群业务是否受损。实例重部署失败。删除虚拟机 deleteServer 重要删除云服务器。包括：在管理控制台进行删除操作。通过API接口下发删除指令。确认虚拟机是否删除成功。实例资源删除。重启虚拟机 rebootServer 次要云服务器重启。包括：在管理控制台进行重启操作。通过API接口下发重启指令。确认业务是否恢复。虚拟机重启。关闭虚拟机 stopServer 次要云服务器关机。包括：在管理控制台进行关机操作。通过API接口下发关机指令。说明： “关闭虚拟机”事件需要开启云审计后才生效。确认是否关机成功。实例停机。删除网卡 deleteNic 重要云服务器删除网卡。包括：在管理控制台删除网卡。通过API接口下发删除网卡指令。确认是网卡否删除成功。网卡资源删除。变更规格 resizeServer 次要云服务器规格变更。包括：在管理控制台进行变更规格。通过API接口下发变更规格指令。确认规格是否变更成功。实例先停机后开机。 GuestOS系统层重启告警 RestartGuestOS 一般 GuestOS内部重启。确认虚拟机是否重启成功。实例重启。系统故障导致虚拟机故障 VMFaultsByHostProcessExceptions 紧急弹性云服务器所在的主机出现故障导致云服务器故障，系统会自动拉起弹性云服务器。请检查云服务器和业务应用是否恢复正常。实例故障。开机失败 faultPowerOn 重要云服务器开机失败。确认应用集群业务是否受损。实例开机失败。宿主机存在宕机风险 hostMayCrash 重要弹性云服务器所在的宿主机存在宕机风险，且由于一些原因，无法通过热迁移手段规避该风险。确认应用集群业务是否受损。实例有重启风险。实例计划迁移已完成 instance_migrate_completed 重要由于底层硬件、系统运维等影响，实例在计划时间迁移，任务已完成。等待运行状态恢复正常，确认业务是否自动恢复。业务存在中断的可能。实例计划迁移执行中 instance_migrate_executing 重要由于底层硬件、系统运维等影响，实例在计划时间迁移，任务执行中。等待自动恢复事件结束，观察业务是否受到影响。业务存在中断的可能。实例计划迁移已取消 instance_migrate_canceled 重要由于底层硬件、系统运维等影响，实例在计划时间迁移，任务已取消。无无实例计划迁移失败 instance_migrate_failed 重要由于底层硬件、系统运维等影响，实例在计划时间迁移，任务失败。联系运维人员处理。业务中断。实例计划迁移等待执行 instance_migrate_scheduled 重要由于底层硬件、系统运维等影响，实例在计划时间迁移，任务等待执行。确认执行窗口对业务的影响。实例等待执行迁移操作。实例计划规格变更失败 instance_resize_failed 重要实例在计划时间规格变更，任务失败。联系运维人员处理。业务中断。实例计划规格变更已完成 instance_resize_completed 重要实例在计划时间规格变更，任务已完成。无无实例计划规格变更执行中 instance_resize_executing 重要实例在计划时间规格变更，任务执行中。等待自动恢复事件结束，观察虚拟机是否正常变更成功。业务中断实例计划规格变更已取消 instance_resize_canceled 重要实例在计划时间规格变更，任务已取消。无无实例计划规格变更等待执行 instance_resize_scheduled 重要实例在计划时间规格变更，任务等待执行。确认执行窗口对业务的影响。实例等待执行规格变更操作。实例计划重新部署等待执行 instance_redeploy_scheduled 重要由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机，任务等待执行。确认执行窗口对业务的影响。实例等待执行重部署。实例计划重启等待执行 instance_reboot_scheduled 重要由于底层硬件、系统运维等影响，实例在计划时间重启，任务等待执行。确认执行窗口对业务的影响。实例等待执行重启。实例计划停止等待执行 instance_stop_scheduled 重要由于底层硬件、系统运维等影响，实例在计划时间停止，任务等待执行。确认执行窗口对业务的影响。实例中止等待。开始热迁移 liveMigrationStarted 重要弹性云服务器所在的主机可能出现故障，提前对虚拟机进行热迁移，避免宕机后导致业务中断。等待虚拟机迁移成功，状态恢复正常。实例热迁移开始。热迁移完成 liveMigrationCompleted 重要热迁移已经结束，弹性云服务器已恢复正常。确认业务是否受到影响。实例热迁移结束。热迁移失败 liveMigrationFailed 重要弹性云服务器热迁移出现问题，未热迁移成功。确认应用集群业务是否受损。实例热迁移失败。 GPU发生double bit ECC告警 doubleBitEccError 重要 GPU硬件存在double bit ECC故障。如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。 GPU Ant1 硬件发生ECC告警 gpuAnt1EccAlarm 重要 GPU卡出现ECC硬件故障。如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。 GPU ECC内存页隔离失败告警 eccPageRetirementRecordingFailure 重要 GPU硬件存在ECC故障，驱动自动隔离内存页时失败。如果业务受损，请提交工单。可能会造成业务中断，故障页隔离隔离失败，可能导致业务无法使用GPU。 GPU ECC页隔离告警 eccPageRetirementRecordingEvent 一般存在ECC硬件错误，发生内存页自动隔离。如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。一般随ECC故障告警出现，单独出现不影响业务。 GPU single bit ECC过多告警 highSingleBitEccErrorRate 重要 ECC硬件存在过高ECC single bit错误。如果业务受损停止，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。 single bit的错误能够自动恢复，一般不影响GPU相关应用程序。 GPU显存页告警 gpuMemoryPageFault 重要 GPU内存页发生故障，故障可能由应用、驱动或硬件引起如果业务受损，请提交工单。可能GPU硬件问题导致显存故障，导致业务异常退出。 GPU驱动掉卡告警 gpuDriverLinkFailureAlarm 重要 GPU链路正常，NVIDIA驱动找不到GPU硬件建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。一般驱动问题导致找不到对应位置的GPU。 GPU图像引擎异常告警 graphicsEngineException 重要 GPU图像引擎发生故障，可能由应用、驱动或硬件引起。如果业务受损，请提交工单。可能GPU硬件问题导致图像引擎故障，导致业务异常退出。 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障如果业务受损，请提交工单。 NVLINK链路故障，影响业务使用GPU NVLINK能力。 GPU存在infoROM告警 gpuInfoROMAlarm 重要 GPU可能存在硬件问题，导致驱动读取不到inforom信息。非敏感业务可以继续使用该GPU卡，敏感业务请提交工单。对业务暂时没有影响，当GPU硬件出现ECC故障时，可能无法自动完成故障页隔离，导致业务受损。 GPU隔离页过多告警 gpuTooManyRetiredPagesAlarm 重要 GPU硬件存在过多ECC隔离页。如果业务受损，请提交工单。 GPU硬件存在过多ECC故障，可能频繁影响业务正常运行。 GPU卡链路故障告警 gpuPcieLinkFailureAlarm 重要 GPU链路异常，通过lspci查看GPU硬件出现故障。如果业务受损，请提交工单。硬件问题导致GPU链路异常，驱动无法使用GPU。虚拟机GPU丢卡告警 vmLostGpuAlarm 重要虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。如果业务受损，请提交工单。虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。如果业务受损，请提交工单。 GPU温度超过温度阈值，可能会引起GPU卡性能下降。 FPGA链路故障 FPGALinkFault 紧急弹性云服务器所在的主机上FPGA卡故障。包括： FPGA卡故障。 FPGA卡故障恢复中。业务应用做成高可用。 FPGA卡故障恢复后，确认业务是否自动恢复。业务中断。 GPU S RAM 存在Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable ECC Error硬件故障。如果业务受损，请提交工单。可能GPU硬件问题导致SRAM故障，导致业务异常退出。 GPU链路故障 GPULinkFault 紧急弹性云服务器所在的主机上GPU卡故障。包括： GPU卡故障。 GPU卡故障恢复中。业务应用做成高可用。 GPU卡故障恢复后，确认业务是否自动恢复。业务中断。实例计划重新部署问询中 instance_redeploy_inquiring 重要由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机，任务问询中。授权重新部署到新主机操作。无本地盘换盘取消 localdisk_recovery_canceled 重要因本地盘故障，更换本地盘任务，任务已取消无无本地盘换盘等待执行 localdisk_recovery_scheduled 重要因本地盘故障，更换本地盘任务，任务等待执行确认执行窗口对业务的影响无 GPU存在通用Xid事件告警 commonXidError 重要 GPU卡出现Xid事件告警如果业务受损，请提交工单。 gpu硬件、驱动、应用问题导致Xid事件，可能导致业务异常退出。 nvidia-smi命令卡住 nvidiaSmiHangEvent 重要 nvidia-smi命令超时，该命令可能卡住如果业务受损，请提交工单。可能是命令执行过程中，触发驱动问题，导致命令卡住，同时可能出现业务使用驱动报错问题。 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorCount 重要 NPU卡出现Uncorrectable ECC Error硬件故障如果业务受到影响，转硬件换卡业务可能受到影响终止实例计划重新部署已取消 instance_redeploy_canceled 重要由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。无无实例计划重新部署执行中 instance_redeploy_executing 重要由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。等待自动恢复事件结束，观察业务是否受到影响。业务中断实例计划重新部署已完成 instance_redeploy_completed 重要由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。等待运行状态恢复正常，观察业务是否受到影响。业务恢复正常实例计划重新部署失败 instance_redeploy_failed 重要由于底层硬件、系统运维等影响，实例在计划时间重新部署到新主机。联系运维人员处理。业务中断本地盘换盘问询中 localdisk_recovery_inquiring 重要本地盘故障授权本地盘换盘操作。本地盘不可用本地盘换盘执行中 localdisk_recovery_executing 重要本地盘故障等待本地盘换盘结束，观察本地盘功能是否正常。本地盘不可用本地盘换盘已完成 localdisk_recovery_completed 重要本地盘故障等待运行状态恢复正常，确认本地盘功能是否自动恢复。本地盘恢复正常本地盘换盘失败 localdisk_recovery_failed 重要本地盘故障联系运维人员处理。本地盘不可用 DAVP: vasmi查询缺少die设备节点 DAVPSMICardNotFound 重要有可能是驱动故障或发生掉卡重启虚拟机，仍无法加载设备需转硬件处理 DAVP卡无法正常使用 DAVP: lspci查询缺少设备 DAVPLspciCardNotFound 重要一般是由于DAVP掉卡转硬件处理 DAVP卡无法正常使用 DAVP: 温度超过85℃阈值 TemperatureOverDfLimit 重要核心模块温度超过85℃引起降频暂停业务，转硬件查看散热系统，device复位会导致DAVP卡降频 DAVP: 温度超过105℃阈值 TemperatureOverSdLimit 重要核心模块温度超过105℃引起高温告警暂停业务，转硬件查看散热系统，device复位触发断电保护，DAVP卡无法正常使用 DAVP: 设备节点核心单元出现异常 DeviceCoreAbnormal 重要当前故障很可能需要客户对使用的Die设备节点进行重启在收集必要信息后，重启Die以尝试恢复重启Die可能中断客户业务 GPU时钟降频告警 gpuClocksThrottleReasonsAlarm 提示可能由于硬件问题，闲置等多种原因导致判断是否为硬件原因导致降频，如果是，转硬件同事处理 GPU频率下降，算力下降 GPU DRAM ECC页隔离待生效 gpuRetiredPagesPendingAlarm 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能异常 GPU DRAM ECC行重映射待生效 gpuRemappedRowsAlarm 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能异常 GPU DRAM ECC行重映射剩余可用资源不足 gpuRowRemapperResourceAlarm 重要硬件重映射资源不足转硬件同事处理 GPU功能异常 GPU DRAM 可纠正ECC报错 gpuDRAMCorrectableEccError 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能可能异常 GPU DRAM 不可纠正ECC报错 gpuDRAMUncorrectableEccError 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能可能异常 GPU当前内核版本和安装驱动时的内核版本不一致 gpuKernelVersionInconsistencyAlarm 重要 GPU当前内核版本和安装驱动时的内核版本不一致先尝试修复方案： rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 上述执行完成后再次执行nvidia-smi命令，如果回显正常，则修复完成。如果上述修复方案失效，请参考GPU驱动不可用中的处理方法进行故障恢复。 GPU功能异常 OS出现ReadOnly问题 ReadOnlyFileSystem 紧急文件系统%s只读请检查磁盘健康状态无法对文件进行写和操作 NPU：驱动固件不匹配 NpuDriverFirmwareMismatch 重要 NPU驱动固件版本不匹配请从昇腾官网获取匹配版本重新安装无法正常使用NPU卡 NPU：Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用确认docker软件是否正常无法使用docker软件重要容器插件Ascend-Docker-Runtime未安装安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡 docker容器无法挂载NPU卡重要操作系统没有开启IP转发功能请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 docker容器无法正常网络通信重要容器共享内存过小共享内存默认为64M，可按需修改方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小分布式训练时共享内存不足导致训练失败 NPU：RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down 请检查NPU Roce网口状态 NPU网卡不可用 NPU：RoCE网卡健康状态异常 RoCEHealthStatusError 重要 NPU 卡 %d RoCE 网络健康状态异常请检查NPU Roce网卡健康状态 NPU网卡不可用 NPU：Roce网卡配置文件/etc/hccn.conf不存在 HccnConfNotExisted 重要 Roce网卡配置文件"/etc/hccn.conf"不存在请检查/etc/hccn.conf网卡配置文件 Roce网卡不可用 GPU：GPU基本组件异常 GpuEnvironmentSystem 重要 nvidia-smi命令异常请检查GPU驱动是否正常 GPU卡驱动不可用重要 nvidia-fabricmanager版本和GPU驱动版本不一致请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager 无法正常工作,影响 GPU 的使用重要容器插件nvidia-container-toolkit未安装安装容器插件nvidia-container-toolkit docker无法挂载GPU卡本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败挂载磁盘错误，导致机器重启异常 GPU：Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误，CMD [ip route]: %s | CMD [ip route show table all]: %s。请正确配置RoCE网卡路由 NPU网络通信异常 NPU：Roce 端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置请检查NPU RoCE UDP端口配置情况影响NPU卡通信性能系统内核自动升级预警 KernelUpgradeWarning 重要系统内核自动升级预警，旧版本：%s，新版本：%s 系统内核升级可能导致配套AI软件异常，请检查系统更新日志，避免机器重启可能导致配套AI配套软件不可用 NPU环境相关命令检测 NpuToolsWarning 重要 hccn_tool不可用请检查NPU驱动是否正常无法配置RoCE网卡的IP、网关重要 npu-smi不可用请检查NPU驱动是否正常无法正常使用NPU卡重要 ascend-dmi不可用请检查工具包ToolBox是否正常安装无法使用ascend-dmi进行性能分析 NPU驱动异常告警 NpuDriverAbnormalWarning 重要 NPU驱动异常重装NPU驱动无法正常使用NPU卡自动恢复：弹性云服务器所在的硬件出现故障时，系统会自动将弹性云服务器迁移至正常的物理机，该过程会导致云服务器重启。表2 裸金属服务器事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 BMS SYS.BMS GPU SRAM存在 Uncorrectable ECC告警 SRAMUncorrectableEccError 重要 GPU卡SRAM出现Uncorrectable ECC Error硬件故障。如果业务受损，请提交工单。可能GPU硬件问题导致SRAM故障，导致业务异常退出主机重启 osReboot 重要裸金属实例重启。包括：在管理控制台进行重启操作通过API接口下发重启指令业务应用做成高可用。主机恢复后，确认业务是否自动恢复。业务中断异常重启 serverReboot 重要裸金属实例异常重启。包括：操作系统异常导致重启主机硬件故障导致重启业务应用做成高可用。主机恢复后，确认业务是否自动恢复。业务中断主机关机 osShutdown 重要裸金属实例关机。包括：在管理控制台进行关机操作通过API接口下发关机指令业务应用做成高可用。主机恢复后，确认业务是否自动恢复。业务中断异常关机 serverShutdown 重要裸金属实例异常关机。包括：主机异常下电主机硬件故障导致关机业务应用做成高可用。主机恢复后，确认业务是否自动恢复。业务中断网络中断 linkDown 重要裸金属服务器网络中断。包括：主机异常关机、重启交换机故障引起的网络中断网关节点故障引起的中断业务应用做成高可用。主机恢复后，确认业务是否自动恢复。业务中断 PCIE异常 pcieError 重要裸金属服务器PCIe设备硬件故障。包括：主板故障 PCIe设备故障业务应用做成高可用。主机恢复后，确认业务是否自动恢复。影响网络或硬盘读写业务硬盘故障 diskError 重要裸金属服务器磁盘故障。包括：硬盘背板故障硬盘本身故障业务应用做成高可用。主机恢复后，确认业务是否自动恢复。影响数据读写业务或主机无法启动云存储连接异常 storageError 重要裸金属服务器云硬盘连接异常。包括： SDI卡故障远端存储故障业务应用做成高可用。主机恢复后，确认业务是否自动恢复。影响数据读写业务或主机无法启动 GPU存在infoROM告警 gpuInfoROMAlarm 重要 GPU可能存在硬件问题，导致驱动读取不到inforom信息。业务可以继续使用该GPU卡，不敏感业务可以继续使用，敏感业务请提交工单处理。对业务暂时没有影响，当GPU硬件出现ECC故障时，可能无法自动完成故障页隔离，导致业务受损。 GPU发生double bit ECC告警 doubleBitEccError 重要 GPU硬件存在double bit ECC故障。如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。 GPU隔离页过多告警 gpuTooManyRetiredPagesAlarm 重要 GPU硬件存在过多ECC隔离页。如果业务受损，请提交工单。 GPU硬件存在过多ECC故障，可能频繁影响业务运行。 GPU Ant1 硬件发生ECC告警 gpuAnt1EccAlarm 重要 GPU卡出现ECC硬件故障。如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。可能会造成业务中断，故障页隔离后业务可继续正常使用GPU。 GPU ECC内存页隔离失败告警 eccPageRetirementRecordingFailure 重要 GPU硬件存在ECC故障，驱动自动隔离这些页时失败。如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。可能会造成业务中断，故障页隔离隔离失败，可能导致业务无法使用GPU。 GPU ECC页隔离告警 eccPageRetirementRecordingEvent 一般存在ECC硬件错误，发生内存页自动隔离。如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。一般随ECC故障告警出现，单独出现不影响业务。 GPU single bit ECC过多告警 highSingleBitEccErrorRate 重要 ECC硬件存在过高ECC single bit错误。如果业务受损停止，则重启业务恢复。如果业务无法启动，建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。 single bit的错误能够自动恢复，一般不影响GPU相关应用程序。 GPU驱动掉卡告警 gpuDriverLinkFailureAlarm 重要 GPU链路正常，NVIDIA驱动找不到GPU硬件。建议尝试重启虚拟机恢复业务。如果业务仍然无法恢复，请提交工单。一般驱动问题导致找不到对应位置的GPU。 GPU卡链路故障告警 gpuPcieLinkFailureAlarm 重要 GPU链路异常，通过lspci无法查看GPU硬件信息。如果业务受损，请提交工单。硬件问题导致GPU卡链路异常，驱动无法使用GPU。虚拟机GPU丢卡告警 vmLostGpuAlarm 重要虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。如果业务受损，请提交工单。虚拟机GPU卡丢失。 GPU显存页告警 gpuMemoryPageFault 重要 GPU显存页发生故障，故障可能由应用、驱动或硬件引起。如果业务受损，请提交工单。可能GPU硬件问题导致显存故障，导致业务异常退出 GPU图像引擎异常告警 graphicsEngineException 重要 GPU图像引擎发生故障，可能由应用、驱动或硬件引起。如果业务受损，请提交工单。可能GPU硬件问题导致图像引擎故障，导致业务异常退出。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。如果业务受损，请提交工单。 GPU温度超过温度阈值，可能会引起GPU卡性能下降 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障。如果业务受损，请提交工单。 NVLINK链路故障，影响业务使用GPU nvlink能力。系统运维问询中 system_maintenance_inquiring 重要由于底层硬件、系统运维等影响，实例在计划时间维修，任务问询中授权维修实例操作无系统运维等待执行 system_maintenance_scheduled 重要由于底层硬件、系统运维等影响，实例在计划时间维修，任务等待执行确认执行窗口对业务的影响无系统运维已取消 system_maintenance_canceled 重要由于底层硬件、系统运维等影响，实例在计划时间维修，任务已取消无无系统运维执行中 system_maintenance_executing 重要由于底层硬件、系统运维等影响，实例在计划时间维修，任务执行中等待维修结束，观察业务是否受到影响业务中断系统运维已完成 system_maintenance_completed 重要由于底层硬件、系统运维等影响，实例在计划时间维修，任务已完成等待运行状态恢复正常，确认业务是否恢复业务恢复正常系统运维失败 system_maintenance_failed 重要由于底层硬件、系统运维等影响，实例在计划时间维修，任务失败联系运维人员处理业务中断 GPU存在通用Xid事件告警 commonXidError 重要 GPU卡出现Xid事件告警如果业务受损，请提交工单。 gpu硬件、驱动、应用问题导致Xid事件，可能导致业务异常退出。 NPU: npu-smi info查询缺少设备 NPUSMICardNotFound 重要可能是由于昇腾驱动问题或NPU掉卡转昇腾和硬件处理 NPU卡无法正常使用 NPU: PCIe链路异常 PCIeErrorFound 重要 Lspci查询卡状态为rev ff 重启，转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要一般是由于NPU掉卡转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要可能是由于DDR颗粒温度过高或过温软件预警暂停业务，重启系统，查看散热系统，device复位可能造成过温下电及device丢失 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorCount 重要 NPU卡出现Uncorrectable ECC Error硬件故障如果业务受到影响，转硬件换卡业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示当前故障很可能需要重启进行恢复在收集必要信息后，重启以尝试恢复重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示当前故障很可能需要复位SOC进行恢复在收集必要信息后，复位SOC以尝试恢复复位SOC可能中断客户业务 NPU: 需要退出AI任务重新执行 RestartAIProcess 提示当前故障很可能需要客户退出当前的AI任务并尝试重新执行在收集必要信息后，尝试退出当前AI任务并尝试重新执行退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning 重要这里涵盖了大量重要及以上的NPU错误码，您可以根据这些错误码进一步定位错误原因对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障，可能导致客户业务终止 nvidia-smi命令卡住 nvidiaSmiHangEvent 重要 nvidia-smi命令超时，该命令可能卡住如果业务受损，请提交工单。可能是命令执行过程中，触发驱动问题，导致命令卡住，同时可能出现业务使用驱动报错问题。 NV Peer Memory加载到内核异常 NvPeerMemException 次要 Nvlink加载异常或nv_peer_mem加载异常 nv_peer_mem存在异常，建议尝试恢复或重新安装Nvlink Nv peer mem无法正常使用 Nv-fabricmanager服务运行异常 NvFabricManagerException 次要机器符合Nvlink使用条件，且安装Nvlink服务，但服务异常 Nvlink存在异常，建议尝试恢复或重新安装Nvlink Nvlink无法正常使用 IB卡使用状态异常 InfinibandStatusException 重要网卡状态或物理状态异常转硬件处理 IB卡无法正常工作 GPU时钟降频告警 gpuClocksThrottleReasonsAlarm 提示可能由于硬件问题，闲置等多种原因导致判断是否为硬件原因导致降频，如果是，转硬件同事处理 GPU频率下降，算力下降 GPU DRAM ECC页隔离待生效 gpuRetiredPagesPendingAlarm 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能异常 GPU DRAM ECC行重映射待生效 gpuRemappedRowsAlarm 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能异常 GPU DRAM ECC行重映射剩余可用资源不足 gpuRowRemapperResourceAlarm 重要硬件重映射资源不足转硬件同事处理 GPU功能异常 GPU DRAM 可纠正ECC报错 gpuDRAMCorrectableEccError 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能可能异常 GPU DRAM 不可纠正ECC报错 gpuDRAMUncorrectableEccError 重要硬件出现ECC问题，需要隔离重启GPU进行自动隔离 GPU功能可能异常 GPU当前内核版本和安装驱动时的内核版本不一致 gpuKernelVersionInconsistencyAlarm 重要 GPU当前内核版本和安装驱动时的内核版本不一致先尝试修复方案： rmmod nvidia_drm rmmod nvidia_modeset rmmod nvidia 上述执行完成后再次执行nvidia-smi命令，如果回显正常，则修复完成。如果上述修复方案失效，请参考GPU驱动不可用中的处理方法进行故障恢复。 GPU功能异常 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误，此事件上报相应错误信息这是一个用于辅助其他事件进行判断的事件，无需单独定位处理 NPU功能可能异常 OS出现ReadOnly问题 ReadOnlyFileSystem 紧急文件系统%s只读请检查磁盘健康状态无法对文件进行写和操作 NPU：驱动固件不匹配 NpuDriverFirmwareMismatch 重要 NPU驱动固件版本不匹配请从昇腾官网获取匹配版本重新安装无法正常使用NPU卡 NPU：Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用确认docker软件是否正常无法使用docker软件重要容器插件Ascend-Docker-Runtime未安装安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡 docker容器无法挂载NPU卡重要操作系统没有开启IP转发功能请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 docker容器无法正常网络通信重要容器共享内存过小共享内存默认为64M，可按需修改方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小分布式训练时共享内存不足导致训练失败 NPU：RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down 请检查NPU Roce网口状态 NPU网卡不可用 NPU：RoCE网卡健康状态异常 RoCEHealthStatusError 重要 NPU 卡 %d RoCE 网络健康状态异常请检查NPU Roce网卡健康状态 NPU网卡不可用 NPU：Roce网卡配置文件/etc/hccn.conf不存在 HccnConfNotExisted 重要 Roce网卡配置文件"/etc/hccn.conf"不存在请检查/etc/hccn.conf网卡配置文件 Roce网卡不可用 GPU：GPU基本组件异常 GpuEnvironmentSystem 重要 nvidia-smi命令异常请检查GPU驱动是否正常 GPU卡驱动不可用重要 nvidia-fabricmanager版本和GPU驱动版本不一致请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager 无法正常工作,影响 GPU 的使用重要容器插件nvidia-container-toolkit未安装安装容器插件nvidia-container-toolkit docker无法挂载GPU卡本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败挂载磁盘错误，导致机器重启异常 GPU：Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误，CMD [ip route]: %s | CMD [ip route show table all]: %s。请正确配置RoCE网卡路由 NPU网络通信异常 NPU：Roce 端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置请检查NPU RoCE UDP端口配置情况影响NPU卡通信性能系统内核自动升级预警 KernelUpgradeWarning 重要系统内核自动升级预警，旧版本：%s，新版本：%s 系统内核升级可能导致配套AI软件异常，请检查系统更新日志，避免机器重启可能导致配套AI配套软件不可用 NPU环境相关命令检测 NpuToolsWarning 重要 hccn_tool不可用请检查NPU驱动是否正常无法配置RoCE网卡的IP、网关重要 npu-smi不可用请检查NPU驱动是否正常无法正常使用NPU卡重要 ascend-dmi不可用请检查工具包ToolBox是否正常安装无法使用ascend-dmi进行性能分析 NPU驱动异常告警 NpuDriverAbnormalWarning 重要 NPU驱动异常重装NPU驱动无法正常使用NPU卡表3 弹性公网IP 事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 EIP SYS.EIP EIP带宽超限事件 EIPBandwidthOverflow 重要当前使用带宽已超过购买的带宽，可能会导致网络变慢或丢包发生。其中，该事件取值为周期内的最大值，而EIP的出入网带宽指标数据，取值为周期时间点的值。其中： “egressDropBandwidth”为本周期内出云丢弃带宽值（Byte），“egressAcceptBandwidth”为本周期内出云通过带宽值（Byte），“egressMaxBandwidthPerSec”为本周期内出云带宽峰值（Byte/s），“ingressAcceptBandwidth”为本周期内入云通过带宽值（Byte），“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值（Byte/s），“ingressDropBandwidth”为本周期内入云丢弃带宽值（Byte）。说明： EIP带宽超限事件当前仅在“华北-北京一”、“华北-北京四”、“华北-乌兰察布一”、“华东-上海一”、“华东-上海二”、“西南-贵阳一”和“华南-广州”区域上线。检查EIP带宽是否一直增加，业务是否正常，并考虑扩容。网络变慢或丢包发生释放EIP deleteEip 次要 EIP资源被删除。检查是否误操作删除资源。无法访问公网 EIP封堵 blockEIP 紧急带宽超过5GB就会封堵，相当于把流量直接丢弃。带宽严重超限或受到攻击，一般是受到了DDoS攻击。更换EIP，避免业务受到影响。同时查看事件中的封堵原因，进行相应处理。业务受影响 EIP解封 unblockEIP 紧急 EIP封堵已被解封。换回原EIP，将被解封EIP重新使用，避免资源浪费。无 EIP开始DDoS清洗 ddosCleanEIP 严重客户购买的EIP发生了DDoS清洗。查看是否遭受攻击。客户的业务可能受损。 EIP结束DDoS清洗 ddosEndCleanEip 严重客户购买的EIP结束了DDoS清洗。查看是否遭受攻击。客户的业务可能受损。企业级Qos带宽超限事件 EIPBandwidthRuleOverflow 重要当前使用企业级Qos带宽已超过分配的带宽，可能会导致网络变慢或丢包发生。其中，该事件取值为周期内的最大值，而EIP的出入网带宽指标数据，取值为周期时间点的值。其中：“egressDropBandwidth”为本周期内出云丢弃带宽值（Byte），“egressAcceptBandwidth”为本周期内出云通过带宽值（Byte），“egressMaxBandwidthPerSec”为本周期内出云带宽峰值（Byte/s），“ingressAcceptBandwidth”为本周期内入云通过带宽值（Byte），“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值（Byte/s），“ingressDropBandwidth”为本周期内入云丢弃带宽值（Byte）。检查EIP带宽是否一直增加，业务是否正常，并考虑扩容。网络变慢或丢包发生。表4 DDoS高防事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 DDoS高防 SYS.DDOS DDoS攻击事件 ddosAttackEvents 严重客户购买的高防实例线路出现了DDoS攻击。根据攻击流量和攻击类型判断对业务的影响，如果攻击流量超过客户购买的弹性带宽需要更换线路或提升规格。客户的业务可能受损。域名调度事件 domainNameDispatchEvents 重要域名对应的高防cname触发了调度，修改了解析记录到其他的高防IP上。请关注该域名的业务情况。一般情况下业务不受影响。黑洞事件 blackHoleEvents 重要客户的高防实例攻击流量超出购买的防护阈值。黑洞解封时间默认为30分钟，具体时长与当日黑洞触发次数和攻击峰值相关，最长可达24小时。如需提前解封，需要用户升级 DDoS高防服务并联系技术支持。客户的业务可能受损。黑洞恢复 cancelBlackHole 提示客户的高防实例从黑洞状态恢复。仅作提示，无需特殊处理。客户的业务恢复。 IP调度事件 ipDispatchEvents 重要 IP路由发生变化请关注该IP的业务情况。一般情况下业务不受影响。表5 弹性负载均衡事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 ELB SYS.ELB 健康检查异常 healthCheckUnhealthy 重要一般是由于后端服务器服务离线导致。事件上报一定次数后，不再上报。检查后端服务器的服务运行状态。 ELB不会往异常的后端转发流量，如果云服务器组下只有一个后端，则业务会中断。健康检查恢复正常 healthCheckRecovery 次要后端服务器健康检查恢复正常。无需处理。负载均衡器到后端服务器流量恢复正常。表6 云备份事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 CBR SYS.CBR 创建备份失败 backupFailed 紧急创建备份失败尝试手动创建备份或者联系技术支持可能造成数据丢失使用备份恢复资源失败 restorationFailed 紧急使用备份恢复资源失败尝试使用其他备份恢复或者联系技术支持可能造成数据丢失备份删除失败 backupDeleteFailed 紧急备份删除失败稍后重试删除或者联系技术支持可能造成计费异常存储库删除失败 vaultDeleteFailed 紧急储存库删除失败稍后重试或联系技术支持可能造成计费异常复制失败 replicationFailed 紧急备份复制失败稍后重试或联系技术支持可能造成数据丢失创建备份成功 backupSucceeded 重要创建备份成功无无使用备份恢复资源成功 restorationSucceeded 重要使用备份恢复资源成功观察数据是否已成功恢复。无备份删除成功 backupDeletionSucceeded 重要备份删除成功无无存储库删除成功 vaultDeletionSucceeded 重要存储库删除成功无无复制成功 replicationSucceeded 重要备份复制成功无无客户端离线 agentOffline 紧急客户端离线请确保客户端状态正常且能够正常连接华为云。可能造成备份任务失败。客户端上线 agentOnline 重要客户端上线无。无。表7 关系型数据库--资源异常事件事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 RDS SYS.RDS 创建实例业务失败 createInstanceFailed 重要创建实例失败产生的事件，一般是磁盘个数，配额大小不足，底层资源耗尽导致。所选资源规格不足，请选择其他可用规格重试。创建实例失败。实例全量备份失败 fullBackupFailed 重要单次全量备份失败产生的事件，不影响以前成功备份的文件，但会对“恢复到指定时间点”的功能有一些影响，导致“恢复到指定时间点”时增量备份的恢复时间延长。全量备份失败，请重新进行操作。全量备份失败，影响备份恢复。主备切换异常 activeStandBySwitchFailed 重要主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务，短时间内会恢复到原主机继续提供服务。主备切换失败，请在业务低峰期重新进行操作。主备切换失败。复制状态异常 abnormalReplicationStatus 重要出现”复制状态异常“事件通常有两种情况： 1、主机与备机或只读实例之间复制时延太大（一般在写入大量数据或执行大事务的时候出现），在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断，导致主机与备机或只读实例复制异常。数据库复制状态异常，正在进行修复，修复后会第一时间通知您，谢谢。复制状态异常。复制状态异常已恢复 replicationStatusRecovered 重要即复制时延已回到正常范围内，或者主备之间的网络通信恢复。数据库复制状态已恢复正常，请确认业务是否正常运行。复制状态异常恢复。实例运行状态异常 faultyDBInstance 重要由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件，属于关键告警事件。实例状态异常，正在进行修复，修复后会第一时间通知您，谢谢。实例状态异常。实例运行状态异常已恢复 DBInstanceRecovered 重要 RDS单机实例灾难或物理机故障恢复，主备实例自动进行主备故障切换，完成后会上报本事件。实例状态已恢复正常，请确认业务是否正常运行。实例状态异常恢复。单实例转主备实例失败 singleToHaFailed 重要创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件，一般是由于备节点所在数据中心资源不足导致。单转主备实例失败，正在进行自动重试。单实例转主备实例失败。数据库进程重新启动 DatabaseProcessRestarted 重要一般是内存不足、负载过高导致数据库进程停止数据库重启完成，请确认业务是否正常运行。主节点数据库重启，业务短暂影响。实例磁盘满 instanceDiskFull 重要一般是由于数据空间占用过大导致。实例磁盘满，请进行扩容操作。实例磁盘空间打满，影响业务继续写入。实例磁盘满恢复 instanceDiskFullRecovered 重要实例磁盘状态恢复正常。磁盘可用空间恢复正常，请确认业务是否正常运行。实例磁盘空间可用量恢复正常。 kafka连接失败 kafkaConnectionFailed 重要一般是由于网络波动或kafka服务端出现异常等原因导致。检查业务是否受到影响。无。表8 关系型数据库--操作类事件事件来源命名空间事件名称事件ID 事件级别事件说明 RDS SYS.RDS 重置数据库管理员密码 resetPassword 重要重置数据库管理员密码。集群扩容等操作 instanceAction 重要磁盘扩容、规格变更。删除集群下的实例 deleteInstance 次要删除集群下的实例。修改备份策略 setBackupPolicy 次要修改备份策略。修改参数组 updateParameterGroup 次要修改参数组。删除参数组 deleteParameterGroup 次要删除参数组。重置参数组 resetParameterGroup 次要重置参数组。修改数据库端口号 changeInstancePort 重要修改数据库端口号。实例主备切换 PrimaryStandbySwitched 重要实例主备切换。表9 文档数据库服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 DDS SYS.DDS 创建实例业务失败 DDSCreateInstanceFailed 重要创建文档数据库实例失败产生的事件，一般是由于磁盘个数、配额不足，底层资源耗尽导致。检查磁盘个数、配额大小是否满足需求，并考虑释放资源后重新创建实例。无法创建数据库实例。复制状态异常 DDSAbnormalReplicationStatus 重要出现”复制状态异常“事件通常有两种情况： 1、主机与备机或只读实例之间复制时延太大（一般在写入大量数据或执行大事务的时候出现），在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断，导致主机与备机或只读实例复制异常。提交工单。不会导致原来实例的读写中断，客户的应用是无感知的。复制状态异常已恢复 DDSReplicationStatusRecovered 重要复制时延已回到正常范围内，或者主备之间的网络通信恢复。不需要处理。无实例运行状态异常 DDSFaultyDBInstance 重要由于灾难或者物理机故障导致实例故障时，会上报该事件，属于关键告警事件。提交工单。可能导致数据库服务不可用。实例运行状态异常已恢复 DDSDBInstanceRecovered 重要针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。不需要处理。无节点运行状态异常 DDSFaultyDBNode 重要由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。检查数据库服务是否可以正常使用，并提交工单。可能导致数据库服务不可用。节点运行状态异常已恢复 DDSDBNodeRecovered 重要针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。不需要处理。无实例主备切换 DDSPrimaryStandbySwitched 重要在手动触发的主备倒换或节点故障自动触发的故障倒换场景下，会上报该事件。不需要处理。无数据盘空间不足 DDSRiskyDataDiskUsage 重要数据盘空间不足，产生此告警。请参见对应服务用户指南中“扩容磁盘”的内容，进行磁盘扩容。实例被设为只读模式，数据无法写入。数据盘空间已扩容并恢复可写 DDSDataDiskUsageRecovered 重要数据盘空间已扩容并恢复可写，产生此事件。无需处理。无影响。用户计划删除KMS密钥 DDSplanDeleteKmsKey 重要一般是由于用户计划删除kms的key导致。计划删除kms的key后，及时恢复kms的key或者及时解密数据。 kms的key被删除后用户无法进行磁盘加密。表10 云数据库GaussDB NoSQL 事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 NoSQL SYS.NoSQL 创建实例业务失败 NoSQLCreateInstanceFailed 重要一般是由于实例配额不足或底层资源不足等原因导致。先释放不再使用的实例再尝试重新发放，或者提交工单调整配额上限。无法创建数据库实例。变更规格失败 NoSQLResizeInstanceFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源再重试规格变更操作。业务中断。添加节点失败 NoSQLAddNodesFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源，删除添加失败的节点，重新尝试添加新节点。无删除节点失败 NoSQLDeleteNodesFailed 重要一般是由于底层释放资源失败导致。重新尝试删除节点。无扩卷失败 NoSQLScaleUpStorageFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源再重试扩卷操作。如果磁盘满，会导致业务中断。重置密码失败 NoSQLResetPasswordFailed 重要一般是由于重置密码命令超时导致。重新尝试重置密码操作。无修改参数组失败 NoSQLUpdateInstanceParamGroupFailed 重要一般是由于修改参数组命令超时导致。重新尝试修改参数组操作。无设置备份策略失败 NoSQLSetBackupPolicyFailed 重要一般是由于数据库连接异常导致。重新重试设置备份策略操作。无创建手动备份失败 NoSQLCreateManualBackupFailed 重要一般是备份文件导出失败或上传失败等原因导致。提交工单让运维处理。无法备份数据。创建自动备份失败 NoSQLCreateAutomatedBackupFailed 重要一般是备份文件导出失败或上传失败等原因导致。提交工单让运维处理。无法备份数据。实例运行状态异常 NoSQLFaultyDBInstance 重要由于灾难或者物理机故障导致实例故障时，会上报该事件，属于关键告警事件。提交工单。可能导致数据库服务不可用。实例运行状态异常已恢复 NoSQLDBInstanceRecovered 重要针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。不需要处理。无节点运行状态异常 NoSQLFaultyDBNode 重要由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。检查数据库服务是否可以正常使用，并提交工单。可能导致数据库服务不可用。节点运行状态异常已恢复 NoSQLDBNodeRecovered 重要针对灾难性的故障，NoSQL有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。不需要处理。无实例主备切换 NoSQLPrimaryStandbySwitched 重要在手动触发的主备倒换或节点故障自动触发的故障倒换场景下，会上报该事件。不需要处理。无出现热点分区键 HotKeyOccurs 重要客观上是因为主键设置不合理，使得热点数据集中分布在一个分区。客户端不合理的应用程序设计，造成对某一key的频繁读写。 1. 选择合理的分区键。 2. 业务增加缓存，业务应用先从缓存中读取热点数据。影响业务请求成功率，存在影响集群性能及稳定性的风险。出现超大分区键 BigKeyOccurs 重要主键设计不合理，单个分区的记录数或数据量过大，引起了节点负载不均。 1. 选择合理的分区键 2. 基于现有分区键，增加分区键散列。随着数据量增长，集群稳定性会下降。数据盘空间不足 NoSQLRiskyDataDiskUsage 重要数据盘空间不足，产生此告警。请参见对应服务用户指南中“扩容磁盘”的内容，进行磁盘扩容。实例被设为只读模式，数据无法写入。数据盘空间已扩容并恢复可写 NoSQLDataDiskUsageRecovered 重要数据盘空间已扩容并恢复可写，产生此事件。无需处理。无创建索引失败 NoSQLCreateIndexFailed 重要业务负载超过实例规格瓶颈，此时再创建索引会耗费更多实例资源，导致响应变慢甚至卡顿，最终超时，引起索引创建失败。 1、根据业务负载，选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段，结合业务进行合理选择。索引创建失败或不完整，导致索引无效，需要删掉索引重新创建。发生写入降速 NoSQLStallingOccurs 重要写入速度快，接近集群规模和实例规格范围允许最大写能力，从而触发数据库自身的限流机制，会发生请求失败情况 1. 根据业务的最大写请求速率，调整集群规模或者节点规格 2. 衡量业务的最大写请求速率，分散业务写峰值速率影响业务的请求的成功率发生写入停止 NoSQLStoppingOccurs 重要写入速度过快，达到集群规模和实例规格范围允许最大写能力，从而触发数据库自身的限流机制，会发生请求失败情况 1. 根据业务的最大写请求速率，调整集群规模或者节点规格 2. 衡量业务的最大写请求速率，分散业务写峰值速率影响业务的请求的成功率重启数据库失败 NoSQLRestartDBFailed 重要一般是由于实例状态异常等原因导致。提交工单让运维处理。数据库实例状态可能存在异常。恢复到新实例失败 NoSQLRestoreToNewInstanceFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源，重新尝试添加新节点。无法恢复到新的数据库实例。恢复到已有实例失败 NoSQLRestoreToExistInstanceFailed 重要一般是由于备份文件下载或恢复失败等原因导致。提交工单让运维处理。当前数据库实例可能处于不可用状态。删除备份文件失败 NoSQLDeleteBackupFailed 重要一般是由于备份文件从obs删除失败导致。重新尝试删除备份文件。无切换慢日志明文开关失败 NoSQLSwitchSlowlogPlainTextFailed 重要一般是由于引擎不支持切换等原因导致。请查阅NoSQL用户指南，确认引擎支持打开慢日志明文开关。提交工单让运维处理。无绑定EIP失败 NoSQLBindEipFailed 重要一般是由于节点状态不正常，节点已经绑定EIP或EIP非法等原因导致。检查节点是否正常，EIP是否合法。无法通过公网访问数据库实例。解绑EIP失败 NoSQLUnbindEipFailed 重要一般是由于节点状态不正常，节点已经未绑定EIP等原因导致。检查节点和EIP状态是否正常。无修改参数失败 NoSQLModifyParameterFailed 重要一般是由于参数取值非法等原因导致。排查参数值是否符合在合法范围内，提交工单让运维处理。无参数组应用失败 NoSQLApplyParameterGroupFailed 重要一般是由于实例状态异常导致参数组无法应用等原因导致。提交工单让运维处理。无开启或关闭SSL失败 NoSQLSwitchSSLFailed 重要一般是由于修改SSL命令超时导致。重新提交一次或者提交工单处理，并先保持切换之前使用SSL的连接方式。是否使用SSL连接。单行数据量太大 LargeRowOccurs 重要用户单行数据量过大，可能会导致查询超时，进而节点OOM异常退出等各种故障发生。 1. 对每列和每行的写入长度做限制，遵从规范，使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码，导致写入大row。过大的单行记录，随着数据量增长，集群稳定性会下降。用户计划删除KMS密钥 NoSQLplanDeleteKmsKey 重要一般是由于用户计划删除kms的key导致。计划删除kms的key后，及时恢复kms的key或者及时解密数据。 kms的key被删除后用户无法进行磁盘加密。查询墓碑数过多 TooManyQueryTombstones 重要查询墓碑数过多，可能会导致查询超时，影响查询性能。使用合理的查询删除方式，避免大批次的范围查询可能会导致查询超时，影响查询性能。超大集合列 TooLargeCollectionColumn 重要当集合列元素个数太多时，会出现集合列查询失败。对集合列的元素个数做限制，遵从规范不超过阈值。排查业务是否出现异常写入和异常编码，导致写入大集合列。会出现集合列查询失败。表11 云数据库GaussDB(for MySQL) 事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 GaussDB(for MySQL) SYS.GAUSSDB 实例增量备份业务失败 TaurusIncrementalBackupInstanceFailed 重要实例增量备份失败产生的事件，一般是管理节点到实例网络或者实例到OBS存储的网络异常，或者实例备份环境异常。提交工单。无法完成实例备份业务操作。添加只读节点失败 addReadonlyNodesFailed 重要创建实例只读节点失败产生的事件，一般是底层资源耗尽导致。检查并释放资源后重新创建。无法创建数据库实例只读节点。创建实例业务失败 createInstanceFailed 重要创建实例失败产生的事件，一般是配额大小不足，底层资源耗尽导致。检查配额大小，释放资源后重新创建。无法创建数据库实例。主备切换异常 activeStandBySwitchFailed 重要主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务，短时间内会恢复到原主节点继续提供服务。提交工单。无法完成主备切换（只读升主）。规格变更业务失败 flavorAlterationFailed 重要规格变更失败产生的事件，一般是配额大小不足，底层资源耗尽导致。提交工单。无法完成规格变更。实例运行状态异常 TaurusInstanceRunningStatusAbnormal 重要实例运行状态异常产生的事件，可能原因是实例进程故障，或者实例到DFV存储间通信问题。提交工单。实例异常，业务可能受损。实例运行状态异常已恢复 TaurusInstanceRunningStatusRecovered 重要实例运行状态异常后恢复产生的事件。观察业务运行情况。无。节点运行状态异常 TaurusNodeRunningStatusAbnormal 重要运行节点状态异常产生的事件，可能原因是节点进程故障，或者节点到DFV存储间通信问题。观察实例状态和业务运行情况。节点异常，可能触发只读升主。节点运行状态异常已恢复 TaurusNodeRunningStatusRecovered 重要节点运行状态异常后恢复产生的事件。观察业务情况。无。删除只读节点失败 TaurusDeleteReadOnlyNodeFailed 重要删除只读节点失败产生的事件，可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。提交工单。无法完成删除只读节点操作。实例重置密码失败 TaurusResetInstancePasswordFailed 重要实例重置密码失败产生的事件，可能原因是管理面到实例通信异常或者实例状态异常件。检查确认实例状态后重试，未解决则提交工单。无法完成实例重置密码操作。实例重启失败 TaurusRestartInstanceFailed 重要实例重启失败产生的事件，可能原因是管理面到实例通信异常或者实例状态异常件。检查确认实例状态后重试，未解决则提交工单。无法完成实例重启操作。恢复到新实例失败 TaurusRestoreToNewInstanceFailed 重要恢复到新实例失败产生的事件，一般是新创建实例配额大小不足，底层资源耗尽导致或者数据恢复逻辑出错。如果是新创建实例失败，检查配额大小，释放资源后重新恢复到新实例，其他情况提交工单。无法完成恢复到新实例。实例绑定EIP失败 TaurusBindEIPToInstanceFailed 重要实例绑定EIP失败产生的事件，绑定任务执行错误。提交工单。无法完成绑定EIP操作。实例解绑EIP失败 TaurusUnbindEIPFromInstanceFailed 重要实例解绑EIP失败产生的事件，绑定任务执行错误。提交工单。无法完成解绑EIP操作。实例修改参数失败 TaurusUpdateInstanceParameterFailed 重要实例修改参数失败产生的事件，一般是管理节点到实例网络异常，或者实例状态异常。检查确认实例状态后重试，未解决则提交工单。无法完成实例修改参数操作。实例参数组应用失败 TaurusApplyParameterGroupToInstanceFailed 重要实例参数组应用失败产生的事件，一般是管理节点到实例网络异常，或者实例状态异常。检查确认实例状态后重试，未解决则提交工单。无法完成实例参数组应用操作。实例全量备份业务失败 TaurusBackupInstanceFailed 重要实例全量备份失败产生的事件，一般是管理节点到实例网络或者实例到OBS存储的网络异常，或者实例备份环境异常。提交工单。无法完成实例备份业务操作。实例发生主备倒换 TaurusActiveStandbySwitched 重要实例发生主备倒换，主要是由于主节点的网络，物理机以及数据库运行出现故障时，GaussDB HA系统会按照倒换优先级将1个只读节点升为主机，以持续提供服务。收到事件后，查看业务运行是否正常。看是否继续收到“实例只读升主业务失败”告警。倒换时业务连接会短时间中断，升主完成后可重新连接数据库。数据库设置为只读模式 NodeReadonlyMode 重要数据库设置为只读状态，只支持查询类操作。提交工单。数据库设置只读状态后，所有写业务返回失败。数据库设置为读写模式 NodeReadWriteMode 重要数据库设置为读写状态提交工单。无实例容灾切换 DisasterSwitchOver 重要实例故障不可用，通过主备切换保证数据库继续对外提供服务。联系技术支持团队处理。访问数据库的业务出现闪断，高可用服务通过切换机制保证新机器升主继续对外提供服务。数据库进程重新启动 TaurusDatabaseProcessRestarted 重要一般是内存不足、负载过高导致数据库进程停止。通过云监控的数据，查看是否有内存飙升、CPU长期过高等的情况，可以选择提升CPU内存规格或者优化业务逻辑。数据库进程挂掉的时候，该节点业务中断。高可用服务会自动拉起进程，尝试恢复业务。表12 云数据库GaussDB 事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 GaussDB SYS.GAUSSDBV5 进程状态告警 ProcessStatusAlarm 重要 GaussDB关键进程退出，包括：CMS/CMA、ETCD、GTM、CN、DN。等待进程自动恢复或者自动主备切换，观察业务是否恢复。如果业务未恢复，联系SRE。主机进程故障，在主机上进行的业务将中断回滚。备机进程故障不影响业务。组件状态告警 ComponentStatusAlarm 重要 GaussDB关键组件无响应，包括：CMA、ETCD、GTM、CN、DN。等待进程自动恢复或者自动主备切换，观察业务是否恢复。如果业务未恢复，联系SRE。主机进程无响应，在主机上进行的业务将无响应。备机进程故障不影响业务。集群状态告警 ClusterStatusAlarm 重要集群状态异常，包括：集群只读、ETCD多数派故障、集群分布不均衡。联系SRE。集群只读：业务只读。 ETCD多数派故障：集群不可用。集群分布不均衡：集群性能/可靠性降低。硬件资源告警 HardwareResourceAlarm 重要集群中出现严重的硬件故障，包括：磁盘损坏、GTM网络通信故障。联系SRE。业务部分/全部受损。状态转换告警 StateTransitionAlarm 重要集群出现如下重要事件：DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。等待自动恢复，观察业务是否恢复。如果业务未恢复，联系SRE。部分业务受损。其他异常告警 OtherAbnormalAlarm 重要磁盘使用阈值告警等。关注业务变化，及时计划扩容。超过使用阈值，将无法扩容。实例运行状态异常 TaurusInstanceRunningStatusAbnormal 重要由于灾难或者物理机故障导致实例故障时，会上报该事件，属于关键告警事件。提交工单。可能导致数据库服务不可用。实例运行状态异常已恢复 TaurusInstanceRunningStatusRecovered 重要针对灾难性的故障，GaussDB有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。不需要处理。无节点运行状态异常 TaurusNodeRunningStatusAbnormal 重要由于灾难或者物理机故障导致数据库节点故障时，会上报该事件，属于关键告警事件。检查数据库服务是否可以正常使用，并提交工单。可能导致数据库服务不可用。节点运行状态异常已恢复 TaurusNodeRunningStatusRecovered 重要针对灾难性的故障，GaussDB有高可用工具会自动进行恢复或者手动恢复，执行完成后会上报该事件。不需要处理。无创建实例业务失败 GaussDBV5CreateInstanceFailed 重要创建实例失败产生的事件，一般是配额大小不足，底层资源耗尽导致。先释放不再使用的实例再尝试重新发放，或者提交工单调整配额上限。无法创建数据库实例。添加节点失败 GaussDBV5ExpandClusterFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源，删除添加失败的节点，重新尝试添加新节点。无存储扩容失败 GaussDBV5EnlargeVolumeFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源再重试扩容操作。如果磁盘满，会导致业务中断。重启失败 GaussDBV5RestartInstanceFailed 重要一般是由于网络问题等原因导致重试重启操作或提交工单让运维处理。可能导致数据库服务不可用。全量备份失败 GaussDBV5FullBackupFailed 重要一般是备份文件导出失败或上传失败等原因导致。提交工单让运维处理。无法备份数据。差量备份失败 GaussDBV5DifferentialBackupFailed 重要一般是备份文件导出失败或上传失败等原因导致。提交工单让运维处理。无法备份数据。删除备份失败 GaussDBV5DeleteBackupFailed 重要无需实现。 - - 绑定EIP失败 GaussDBV5BindEIPFailed 重要弹性公网IP已被占用或IP资源等原因导致。提交工单让运维处理。导致实例无法使用公网链接或访问解绑EIP失败 GaussDBV5UnbindEIPFailed 重要网络故障或公网EIP服务故障等原因导致。重新解绑Ip或提交工单让运维处理。可能导致IP资源残留参数组应用失败 GaussDBV5ApplyParamFailed 重要一般是由于修改参数组命令超时导致。重新尝试修改参数组操作。无参数修改失败 GaussDBV5UpdateInstanceParamGroupFailed 重要一般是由于修改参数组命令超时导致。重新尝试修改参数组操作。无备份恢复失败 GaussDBV5RestoreFromBcakupFailed 重要一般是由底层资源不足或备份文件下载失败等原因导致提交工单。可能导致在恢复失败期间数据库服务不可用升级热补丁失败 GaussDBV5UpgradeHotfixFailed 重要一般是内核升级时报错导致。查看工作流报错信息，重做跳过等。无表13 分布式数据库中间件事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 DDM SYS.DDM 创建实例失败 createDdmInstanceFailed 重要一般是由于底层资源不足等原因导致。释放资源后重新创建。无法创建DDM实例。变更规格失败 resizeFlavorFailed 重要一般是由于底层资源不足等原因导致。请工单联系运维在后台协调资源再重试规格变更操作。部分节点业务中断节点扩容失败 enlargeNodeFailed 重要一般是由于底层资源不足等原因导致。请工单联系运维后台协调资源，删除添加失败的节点，重新尝试添加节点节点扩容失败节点缩容失败 reduceNodeFailed 重要一般是由于底层释放资源失败等原因导致。请工单联系运维后台处理资源。节点缩容失败重启实例失败 restartInstanceFailed 重要一般是由于底层关联数据库实例异常等原因导致。建议先排查底层数据库实例是否异常，如果无异常请工单联系运维进行排查。部分节点业务中断创建逻辑库失败 createLogicDbFailed 重要一般是由于以下几种原因导致的： 1、数据库实例账号密码错误；2、DDM实例与底层数据库实例安全组设置错误，导致无法通信。请排查： 1、数据库实例账号密码是否错误；2、DDM实例与底层数据库实例安全组是否设置正确等问题。业务无法正常运行绑定弹性公网IP失败 bindEipFailed 重要一般是由于EIP服务繁忙。稍后重试，紧急情况下请联系运维排查问题。无法通过公网访问服务逻辑库扩容失败 migrateLogicDbFailed 重要一般是由于底层处理失败。请工单联系运维处理。无法实现逻辑库扩容逻辑库扩容重试失败 retryMigrateLogicDbFailed 重要一般是由于底层处理失败。请工单联系运维处理。无法实现逻辑库扩容表14 云手机服务器事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 CPH SYS.CPH 主机关机 cphServerOsShutdown 重要云手机服务器关机。包括：在管理控制台进行关机操作通过API接口下发关机指令业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。业务中断。异常关机 cphServerShutdown 重要云手机服务器异常关机。包括：云手机服务器异常下电云手机服务器硬件故障导致关机业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。业务中断。主机重启 cphServerOsReboot 重要云手机服务器重启。包括：在管理控制台进行重启操作通过API接口下发重启指令业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。业务中断异常重启 cphServerReboot 重要云手机服务器异常重启。包括：操作系统异常导致重启云手机服务器硬件故障导致重启业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。业务中断。网络中断 cphServerlinkDown 重要云手机服务器网络中断。包括：云手机服务器异常关机、重启交换机故障引起的网络中断网关节点故障引起的中断业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。业务中断。 PCIE异常 cphServerPcieError 重要云手机服务器PCIe设备硬件故障。包括：主板故障 PCIe设备故障业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。影响网络或硬盘读写业务硬盘故障 cphServerDiskError 重要云手机服务器磁盘故障。包括：硬盘背板故障硬盘本身故障业务应用做成高可用。云手机服务器恢复后，确认业务是否自动恢复。影响数据读写业务或主机无法启动云存储连接异常 cphServerStorageError 重要云手机服务器云硬盘连接异常。包括： SDI卡故障远端存储故障业务应用做成高可用。主机恢复后，确认业务是否自动恢复。影响数据读写业务或主机无法启动显卡掉线 cphServerGpuOffline 重要云手机服务器GPU显卡松动掉线云手机服务器进行一次关机、开机操作显卡掉线涉及的云手机出现运行故障，重启重置手机无法恢复显卡TimeOut cphServerGpuTimeOut 重要云手机服务器GPU显卡TimeOut 重启云手机服务器显卡Timeout涉及的云手机出现运行故障，重启重置手机无法恢复磁盘空间满 cphServerDiskFull 重要云手机服务器磁盘空间满客户需要清理云手机里的业务数据，释放空间云手机亚健康，容易出现故障无法启动磁盘变只读 cphServerDiskReadOnly 重要云手机服务器磁盘变成只读重启云手机服务器云手机亚健康，容易出现故障无法启动云手机元数据损坏 cphPhoneMetaDataDamage 重要云手机的容器元数据损坏联系运维处理云手机重启重置无法恢复 GPU故障 gpuAbnormal 致命 GPU发生故障提交工单转运维处理业务中断 GPU恢复正常 gpuNormal 提示 GPU从故障中恢复正常无需处理无内核崩溃 kernelCrash 致命内核崩溃crash 提交工单转运维处理 crash期间业务中断内核OOM kernelOom 重要内核日志提示out of memory 提交工单转运维处理业务中断硬件故障 hardwareError 致命内核日志报Hardware Error 提交工单转运维处理业务中断 PCIE故障 pcieAer 致命内核日志报PCIE Bus Error 提交工单转运维处理业务中断 SCSI故障 scsiError 致命内核日志报SCSI error 提交工单转运维处理业务中断镜像存储只读故障 partReadOnly 致命镜像存储分区挂载属性变为readonly 提交工单转运维处理业务中断镜像存储超级块损坏故障 badSuperBlock 致命镜像存储分区相关文件系统超级块损坏提交工单转运维处理业务中断镜像存储sharedpath只读故障 isuladMasterReadOnly 致命镜像存储的/.sharedpath/master挂载属性只读提交工单转运维处理业务中断云手机数据盘只读故障 cphDiskReadOnly 致命云手机数据盘挂载属性变为readonly 提交工单转运维处理业务中断云手机数据盘超级块损坏故障 cphDiskBadSuperBlock 致命云手机数据盘相关文件系统超级块损坏提交工单转运维处理业务中断表15 二层连接网关事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 L2CG SYS.ESW IP地址冲突 IPConflict 重要一般是由于线上（本端子网）与线下（远端网段）存在相关IP地址的主机导致。通过查看ARP、交换机信息等措施，排查出具体IP冲突的主机，根据业务场景调整IP避免冲突。可能导致冲突IP相关网络通信异常。表16 弹性公网IP和带宽事件来源命名空间事件名称事件ID 事件级别弹性公网IP和带宽 SYS.VPC 删除VPC deleteVpc 重要修改VPC modifyVpc 次要删除Subnet deleteSubnet 次要修改Subnet modifySubnet 次要修改带宽 modifyBandwidth 次要删除VPN deleteVpn 重要修改VPN modifyVpn 次要表17 云硬盘事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 EVS SYS.EVS 更新磁盘 updateVolume 次要更新一个云硬盘的名称和描述。无需处理。无。扩容磁盘 extendVolume 次要对云硬盘进行扩容。无需处理。无。删除磁盘 deleteVolume 重要删除一个云硬盘。无需处理。删除的磁盘将不能被恢复。磁盘性能达到QoS上限 reachQoS 重要磁盘性能频繁达到该规格的QoS上限，从而触发流控，导致IO访问时延变大。磁盘性能频繁达到该规格的QoS上限，从而触发流控，导致IO访问时延变大，意味该类型的磁盘可能无法满足当前业务需求，建议提升磁盘规格。磁盘性能频繁达到该规格的QoS上限，从而触发流控，导致IO访问时延变大，意味该类型的磁盘可能无法满足当前业务需求，建议提升磁盘规格表18 统一身份认证服务事件来源命名空间事件名称事件ID 事件级别 IAM SYS.IAM 用户登录 login 次要用户登出 logout 次要登录重置密码 changePassword 重要创建用户 createUser 次要删除用户 deleteUser 重要修改用户 updateUser 次要创建用户组 createUserGroup 次要删除用户组 deleteUserGroup 重要修改用户组 updateUserGroup 次要创建idp createIdentityProvider 次要删除idp deleteIdentityProvider 重要修改idp updateIdentityProvider 次要更新metadata updateMetadata 次要更新账号登录策略 updateSecurityPolicies 重要创建AK/SK addCredential 重要删除AK/SK deleteCredential 重要创建project createProject 次要更新project updateProject 次要冻结项目 suspendProject 重要表19 密钥管理服务事件来源命名空间事件名称事件ID 事件级别 KMS SYS.KMS 禁用密钥 disableKey 重要计划删除密钥 scheduleKeyDeletion 次要退役授权 retireGrant 重要撤销授权 revokeGrant 重要表20 对象存储服务事件来源命名空间事件名称事件ID 事件级别 OBS SYS.OBS 删除桶 deleteBucket 重要删除桶policy配置 deleteBucketPolicy 重要设置桶的ACL setBucketAcl 次要设置桶的策略 setBucketPolicy 次要表21 云监控事件来源命名空间事件名称事件ID 事件级别事件说明处理建议 Cloud Eye SYS. CES 插件故障事件 agentHeartbeatInterrupted 重要监控插件每1分钟发送1次心跳；当服务端3分钟收不到插件心跳时，“插件状态”显示为“故障”。查看Agent域名是否无法解析。查看账号是否欠费。 Agent进程故障，先尝试重启Agent如果重启后状态还是故障，可能Agent相关文件被破坏，请尝试重新安装Agent。查看服务器内部时间和本地标准时间不一致。使用的DNS非华为云DNS，请通过执行dig+目标域名获取到agent.ces.myhuaweicloud.com在华为云内网DNS下解析到的IP后再添加对应的hosts。请将Agent更新为最新版本。插件已恢复 agentResumed 提示客户端插件已恢复运行。不需要处理。插件已故障 agentFaulty 重要客户端插件运行故障，上报对应状态。 Agent进程故障，先尝试重启Agent。如果重启后状态还是故障，可能Agent相关文件被破坏，请尝试重新安装Agent。请将Agent更新为最新版本。插件已断联 agentDisconnected 重要监控插件每1分钟发送1次心跳；当服务端3分钟收不到插件心跳时，“插件状态”显示为“故障”。查看Agent域名是否无法解析。查看账号是否欠费。 Agent进程故障，先尝试重启Agent。如果重启后状态还是故障，可能Agent相关文件被破坏，请尝试重新安装Agent。查看服务器内部时间和本地标准时间不一致。使用的DNS非华为云DNS，请通过执行dig+目标域名获取到agent.ces.myhuaweicloud.com在华为云内网DNS下解析到的IP后再添加对应的hosts。请将Agent更新为最新版本。表22 数据空间服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 Data Space SYS.HWDS 新增修订版本 newRevision 次要数据产品发布了新的修订版本。收到事件通知后根据需要导出新的修订版本数据。无。表23 企业交换机事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 ESW SYS.ESW IP地址冲突 IPConflict 重要 L2互联场景：一般是由于线上（本端子网）与线下（远端网段）存在相关IP地址的主机导致。通过查看ARP、交换机信息等措施，排查出具体IP冲突的主机，根据业务场景调整IP避免冲突。可能导致冲突IP相关网络通信异常。表24 凭据管理服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 C SMS SYS.CSMS 操作待删除凭据 operateDeletedSecret 重要用户调用接口操作计划删除状态凭据。用户可以考虑取消删除该凭据。到期删除的凭据无法恢复。表25 分布式缓存服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 DCS SYS.DCS 在线迁移发生全量重试 migrationFullResync 次要在线迁移在重试时，因无法进行增量同步，而触发了全量同步。确认是否发生反复的全量重试，需要检查到源端的网络连接是否正常，是否源端压力过大。如果反复全量重试，联系运维人员处理。迁移任务与源实例发生中断，重新触发了全量同步，可能导致源实例CPU冲高。实例主备切换（故障切换） masterStandbyFailover 次要 Redis主节点异常，触发主从倒换机制，备节点升主。检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。实例长连接会中断。 Memcached主从倒换 memcachedMasterStandbyFailover 次要 Memcached主节点异常，触发主从倒换机制，备节点升主。检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。实例长连接会中断。 Redis节点状态异常 redisNodeStatusAbnormal 重要 Redis节点状态异常。检查业务是否受影响，如果影响联系运维人员处理。节点状态异常，主节点异常会自动主备切换。从节点异常，如果客户端直连从节点进行读写分离，读操作会出现异常。 Redis节点状态恢复正常 redisNodeStatusNormal 重要 Redis节点从异常恢复正常。检查业务是否恢复。如果应用未重连，需要重启应用进行恢复。异常恢复事件。数据迁移同步失败 migrateSyncDataFail 重要执行在线迁移任务时，迁移任务失败。重新配置迁移任务重试迁移。如果仍然失败，联系运维人员处理。数据迁移失败。 Memcached实例状态异常 memcachedInstanceStatusAbnormal 重要 Memcached节点状态异常。检查业务是否受影响，如果影响联系运维人员处理。 Memcached实例状态异常,实例可能无法访问。 Memcached实例状态异常恢复 memcachedInstanceStatusNormal 重要 Memcached节点从异常恢复正常。检查业务是否恢复。如果应用未重连，需要重启应用进行恢复。异常恢复事件。实例备份失败 instanceBackupFailure 重要 DCS实例备份失败，一般可能是由于访问OBS失败等原因导致。手动备份进行重试。自动备份失败。实例节点异常重启 instanceNodeAbnormalRestart 重要一般是由于DCS实例节点异常后重启导致。检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。实例长连接会中断。终止超时lua脚本 scriptsStopped 提醒一般是由于lua脚本运行时间过长，自动终止脚本运行。优化lua脚本，防止执行超时。 lua脚本执行时间超长，被强制中断。lua脚本执行时间过长，会阻塞整个实例。节点自动重启 nodeRestarted 提醒一般是由于lua脚本运行时间过长，并且已执行写操作，自动重启节点终止脚本运行。检查业务是否自愈。如果应用未恢复，需要重启应用进行恢复。实例长连接会中断。触发带宽弹性伸缩 bandwidthAutoScalingTriggered 提示实例带宽使用达到阈值，触发带宽弹性伸缩。关注该实例业务情况。实例带宽使用达到阈值，触发带宽弹性伸缩。带宽增加会新增计费。表26 智能云接入事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 ICA SYS.ICA BGP peer连接中断 BgpPeerDisconnection 重要 BGP peer连接中断登录网关设备，排查bgp peer断连原因业务流量有可能会中断 BGP peer连接成功 BgpPeerConnectionSuccess 重要 BGP peer连接成功无无 GRE隧道状态异常 AbnormalGreTunnelStatus 重要 GRE隧道状态异常登录网关设备，排查gre隧道状态异常原因业务流量有可能会中断 GRE隧道状态正常 NormalGreTunnelStatus 重要 GRE隧道状态正常无无设备wan口上线 EquipmentWanGoingOnline 重要设备wan口上线无无设备wan口下线 EquipmentWanGoingOffline 重要设备wan口下线检查是否为人为操作或设备故障设备无法正常使用智能企业网关设备上线 IntelligentEnterpriseGatewayGoingOnline 重要智能企业网关设备上线无无智能企业网关设备下线 IntelligentEnterpriseGatewayGoingOffline 重要智能企业网关设备下线检查是否为人为操作或设备故障设备无法正常使用表27 多活高可用服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 MAS SYS.MAS 数据库状态异常 dbError 重要一般是由于MAS监控到用户数据库实例状态导致的。用户登录MAS控制台查看原因及处理异常。业务中断数据库状态恢复 dbRecovery 重要数据库实例状态从异常恢复正常。无。业务中断 Redis状态异常 redisError 重要一般是由于MAS监控到用户Redis实例状态导致的。用户登录MAS控制台查看原因及处理异常。业务中断 Redis状态恢复 redisRecovery 重要 Redis实例状态从异常恢复正常。无。业务中断 MongoDB状态异常 mongodbError 重要一般是由于MAS监控到用户MongoDB实例状态导致的。用户登录MAS控制台查看原因及处理异常。业务中断 MongoDB状态恢复 mongodbRecovery 重要 API状态从异常恢复正常。无。业务中断 Elasticsearch状态异常 esError 重要一般是由于MAS监控到用户ElasticSearch实例状态导致的。用户登录MAS控制台查看原因及处理异常。业务中断 Elasticsearch状态恢复 esRecovery 重要 ElasticSearch实例状态从异常恢复正常。无。业务中断 API接口状态异常 apiError 重要一般是由于MAS监控到用户API状态导致的。用户登录MAS控制台查看原因及处理异常。业务中断 API接口状态恢复 apiRecovery 重要 API状态从异常恢复正常。无。业务中断多活分区状态发生变化 netChange 重要 MAS服务多活管理中心探测到多活分区状态发生变化用户登录MAS控制台查看原因及处理异常。可能导致多活分区网络的状态改变。表28 配置审计服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 Config SYS. RMS 配置不合规通知 configurationNoncomplianceNotification 重要审计规则执行结果为不合规。修改资源不合规的配置项，使其合规。无。配置合规通知 configurationComplianceNotification 提示审计规则执行结果变为合规。无。无。表29 安全云脑事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 SecMaster SYS.SecMaster 独享引擎创建失败 createEngineFailed 重要一般是由于底层资源不足等原因导致。提交工单让运维在后台协调资源再重试。无法创建独享引擎。独享引擎运行异常 engineException 紧急一般是由于流量过大或者恶意流程，插件导致。排查流程，插件执行是否占用资源过多查看实例监控，短期内是否实例数量暴增。无法执行实例。剧本实例执行失败 playbookInstanceExecFailed 一般一般是由于剧本，流程配置出错导致。通过实例监控查看失败原因，修改剧本，流程配置。无。剧本实例突增 playbookInstanceIncreaseSharply 一般一般是由于剧本，流程配置出错导致。通过实例监控查看突增原因，修改剧本，流程配置。无。日志消息突增 logIncrease 重要上游服务产生大量日志，导致消息快速增加。需要排查上游服务业务是否正常。无。日志消息突减 logsDecrease 重要上游服务产生日志突然变小。需要排查上游服务业务是否正常无。表30 密钥对管理服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 KPS SYS.KPS 删除密钥对 KPSDeleteKeypair 提示成功删除密钥对，此操作不可逆。当短时间内大量触发此事件时，要检查是否出现恶意删除的情况。被删除密钥对无法恢复。表31 企业主机安全服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 HSS SYS.HSS 企业主机安全服务Agent异常离线 hssAgentAbnormalOffline 重要一般是由于Agent与服务器通信异常，主机中的Agent进程异常等原因导致。排查网络故障，待网络恢复正常后，若长时间Agent状态仍为“离线”，可能是Agent进程异常，需要登录主机，重启Agent进程。业务中断。企业主机安全服务Agent防护状态异常 hssAgentAbnormalProtection 重要一般是由于底层资源不足造成Agent工作模式异常等原因导致。登录主机检查资源，如发现内存或者其他系统资源过高等情况，建议优先扩容处理。如果资源够用,重启Agent进程后还是异常，提交工单让运维处理业务中断。表32 镜像服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 IMS SYS.IMS 创建镜像 createImage 重要用户创建私有镜像无镜像创建完成后，可使用该镜像创建云服务器。更新镜像 updateImage 重要用户更新私有镜像元数据无更新镜像关键元数据可能导致该镜像创建云服务器失败。删除镜像 deleteImage 重要用户删除私有镜像无不能使用该镜像创建云服务器。表33 云存储网关事件来源命名空间事件名称事件ID 事件级别事件说明 CSG SYS.CSG 网关进程状态异常 gatewayProcessStatusAbnormal 重要当云存储网关进程状态异常时，则触发进程状态异常事件。网关连接状态异常 gatewayToServiceConnectAbnormal 重要当云存储网关连续5个周期无状态上报时，则触发连接异常事件。网关与OBS连接状态异常 gatewayToObsConnectAbnormal 重要当云存储网关无法连接到OBS时，则触发该事件。文件系统只读 gatewayFileSystemReadOnly 重要当云存储网关上的分区文件系统只读时，则触发该事件。文件共享只读 gatewayFileShareReadOnly 重要当文件共享因缓存盘存储空间不足，文件共享只读时，则触发该事件。表34 全球加速事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 GA SYS.GA AIP封堵 blockAIP 紧急带宽超过5GB就会封堵，相当于把流量直接丢弃。带宽严重超限或受到攻击，一般是受到了DDoS攻击。查看事件中的封堵原因，进行相应处理。业务受影响。 AIP解封 unblockAIP 紧急 AIP封堵已被解封。查看加速资源是否可用。无。终端节点健康状态异常 healthCheckError 重要通过健康检查探测终端节点状态异常。根据终端节点的健康检查结果异常如何排查？文档排查原因，未解决则提交工单。当健康检查探测到您的终端节点异常时，不再向异常的终端节点转发流量，直到健康检查检测到终端节点恢复正常时，才会继续转发流量。表35 企业连接事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 EC SYS.EC 设备wan口上线 EquipmentWanGoesOnline 重要设备wan口上线无无设备wan口下线 EquipmentWanGoesOffline 重要设备wan口下线检查是否为人为操作或设备故障设备无法正常使用 BGP peer连接中断 BgpPeerDisconnection 重要 BGP peer连接中断检查是否为人为操作或设备故障设备无法正常使用 BGP peer连接成功 BgpPeerConnectionSuccess 重要 BGP peer连接成功无无 GRE隧道状态异常 AbnormalGreTunnelStatus 重要 GRE隧道状态异常检查是否为人为操作或设备故障设备无法正常使用 GRE隧道状态正常 NormalGreTunnelStatus 重要 GRE隧道状态正常无无智能企业网关设备上线 IntelligentEnterpriseGatewayGoesOnline 重要智能企业网关设备上线无无智能企业网关设备下线 IntelligentEnterpriseGatewayGoesOffline 重要智能企业网关设备下线检查是否为人为操作或设备故障设备无法正常使用表36 MapReduce服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 MRS SYS.MRS DBServer主备倒换 dbServerSwitchover 次要 DBServer主备倒换主备倒换需要和运维人员确认是否为正常操作导致。连续触发主备倒换可能影响Hive服务正常使用，导致Hive服务不可用。 Flume Channel溢出 flumeChannelOverflow 次要 Flume Channel溢出确认flume的channel配置是否合理，业务量是否有突增。 Flume任务无法正常写入数据到后端。 NameNode主备倒换 namenodeSwitchover 次要 NameNode主备倒换主备倒换需要和运维人员确认是否为正常操作导致。连续触发主备倒换可能影响HDFS服务正常使用，读写HDFS文件可能失败。 ResourceManager主备倒换 resourceManagerSwitchover 次要 ResourceManager主备倒换主备倒换需要和运维人员确认是否为正常操作导致连续触发主备倒换可能影响Yarn服务正常使用，导致任务出现异常甚至失败 JobHistoryServer主备倒换 jobHistoryServerSwitchover 次要 JobHistoryServer主备倒换主备倒换需要和运维人员确认是否为正常操作导致连续触发主备倒换可能影响MapReduce服务正常使用，导致任务日志读取异常 HMaster主备倒换 hmasterFailover 次要 HMaster主备倒换主备倒换需要和运维人员确认是否为正常操作导致连续触发主备倒换可能影响HBase服务正常使用 Hue发生主备切换 hueFailover 次要 Hue发生主备切换主备倒换需要和运维人员确认是否为正常操作导致主备倒换可能影响HUE服务正常使用，导致页面无法使用等问题 Impala HaProxy服务发生主备切换 impalaHaProxyFailover 次要 Impala HaProxy服务发生主备切换主备倒换需要和运维人员确认是否为正常操作导致连续触发主备倒换可能影响Impala服务正常使用 Impala StateStoreCatalog服务发生主备切换 impalaStateStoreCatalogFailover 次要 Impala StateStoreCatalog服务发生主备切换主备倒换需要和运维人员确认是否为正常操作导致连续触发主备倒换可能影响Impala服务正常使用 LdapServer主备倒换 ldapServerFailover 次要 LdapServer主备倒换主备倒换需要和运维人员确认是否为正常操作导致连续触发主备倒换可能影响LdapServer服务正常使用 Loader主备倒换 loaderSwitchover 次要 Loader主备倒换主备倒换需要和运维人员确认是否为正常操作导致主备倒换可能影响Loader服务正常使用 Manager主备倒换 managerSwitchover 提示 Manager主备倒换主备倒换需要和运维人员确认是否为正常操作导致 Manager主备倒换可能导致Manager页面无法正常访问，部分监控可能出现异常数值作业执行失败 jobRunningFailed 提示作业执行失败查看作业管理页面，确认失败任务是否有异常作业执行过程出现失败作业被终止 jobkilled 提示作业被终止确认任务是否人为下发终止命令作业执行过程被终止 Oozie工作流执行失败 oozieWorkflowExecutionFailure 次要 Oozie工作流执行失败查看Oozie日志，确认任务失败原因 Oozie工作流执行失败 Oozie定时任务执行失败 oozieScheduledJobExecutionFailure 次要 Oozie定时任务执行失败查看Oozie日志，确认任务失败原因 Oozie定时任务执行失败 ClickHouse服务不可用 clickHouseServiceUnavailable 紧急 ClickHouse服务不可用请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。 ClickHouse服务异常，无法通过 FusionInsight Manager对ClickHouse进行集群操作，无法使用ClickHouse服务功能。 DBService服务不可用 dbServiceServiceUnavailable 紧急 DBService服务不可用请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。数据库服务不可用，无法对上层服务提供数据入库、查询等功能，使部分服务异常。 DBService主备节点间心跳中断 dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes 重要 DBService主备节点间心跳中断请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。 DBService主备间心跳中断时只有一个节点提供服务，一旦该节点故障，再无法切换到备节点，就会服务不可用。 DBService主备数据不同步 dataInconsistencyBetweenActiveAndStandbyDBServices 紧急 DBService主备数据不同步请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。主备DBServer数据不同步，如果此时主实例异常，则会出现数据丢失或者数据异常的情况。数据库进入只读模式 databaseEnterstheReadOnlyMode 紧急数据库进入只读模式请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。数据库进入只读模式，业务数据丢失。 Flume服务不可用 flumeServiceUnavailable 紧急 Flume服务不可用请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。当Flume服务不可用时，Flume不能正常工作，数据传输业务中断。 Flume Agent异常 flumeAgentException 重要 Flume Agent异常请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。产生告警的Flume Agent实例无法正常启动，定义在该实例下的数据传输任务暂时中断，对于实时数据传输，会丢失实时数据。 Flume Client连接中断 flumeClientDisconnected 重要 Flume Client连接中断请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。产生告警的Flume Client无法与Flume Server端进行通信，Flume Client端的数据无法传输到Flume Server端。 Flume读取数据异常 exceptionOccursWhenFlumeReadsData 重要 Flume读取数据异常请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。如果数据源有数据，Flume Source持续读取不到数据，数据采集会停止。 Flume传输数据异常 exceptionOccursWhenFlumeTransmitsData 重要 Flume传输数据异常请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。 Flume Channel的磁盘空间使用量有继续增长的趋势，将会使数据导入到指定目的地的时间增长，当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 Flume 证书文件非法或已损坏 flumeCertificateFileIsinvalid 重要 Flume 证书文件非法或已损坏请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。 Flume证书文件已经非法或损坏，功能受限，Flume客户端将无法访问Flume服务端。 Flume 证书文件即将过期 flumeCertificateFileIsAboutToExpire 重要 Flume 证书文件即将过期请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。 Flume证书文件即将失效，对系统目前运行无影响。 Flume 证书文件已过期 flumeCertificateFileIsExpired 重要 Flume 证书文件已过期请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。 Flume证书文件已过期，功能受限，Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件失效 flumeMonitorServerCertificateFileIsInvalid 重要 Flume MonitorServer证书文件失效请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。 MonitorServer证书文件已经非法或损坏，功能受限，Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件即将过期 flumeMonitorServerCertificate FileIsAboutToExpire 重要 Flume MonitorServer证书文件即将过期请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。 MonitorServer证书文件即将失效，对系统目前运行无影响。 Flume MonitorServer证书文件已过期 flumeMonitorServerCertificateFileIsExpired 重要 Flume MonitorServer证书文件已过期请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。 MonitorServer证书文件已过期，功能受限，Flume客户端将无法访问Flume服务端。 HDFS服务不可用 hdfsServiceUnavailable 紧急 HDFS服务不可用请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 NameService服务异常 nameServiceServiceUnavailable 重要 NameService服务异常请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 DataNode数据目录配置不合理 datanodeDataDirectoryIsNotConfiguredProperly 重要 DataNode数据目录配置不合理请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。如果将DataNode数据目录挂载在根目录等系统关键目录，长时间运行后会将根目录写满，导致系统故障。不合理的DataNode数据目录配置，会造成HDFS的性能下降。 Journalnode数据不同步 journalnodeIsOutOfSynchronization 重要 Journalnode数据不同步请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。当一个JournalNode节点工作状态异常时，其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时，NameNode将无法工作，导致HDFS服务不可用。 NameNode FsImage文件更新失败 failedToUpdateTheNameNodeFsImageFile 重要 NameNode FsImage文件更新失败请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。如果主NameNode数据目录的FsImage没有更新，则说明HDFS元数据合并功能异常，需要修复。如不修复，HDFS在运行一段时间后，Editlog会一直增长。此时如果重启HDFS，由于要加载非常多的Editlog，会导致启动非常耗时。另外，该告警的产生也说明备NameNode功能异常，导致NameNode的HA机制失效。一旦主NameNode故障，则整个HDFS服务将不可用。 DataNode磁盘故障 datanodeDiskFault 重要 DataNode磁盘故障请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。上报DataNode磁盘故障告警时，表示该DataNode节点上存在故障的磁盘分区，可能会导致已写入的文件丢失。 Yarn服务不可用 yarnServiceUnavailable 紧急 Yarn服务不可用请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 NodeManager心跳丢失 nodemanagerHeartbeatLost 重要 NodeManager心跳丢失请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。丢失的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。 NodeManager不健康 nodemanagerUnhealthy 重要 NodeManager不健康请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。故障的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。 Yarn 任务执行超时 yarnApplicationTimeout 次要 Yarn 任务执行超时请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。任务执行超时后的运行时间内，该告警一直存在，但任务仍继续正常执行，没有任何影响。 Mapreduce服务不可用 mapreduceServiceUnavailable 紧急 Mapreduce服务不可用请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。集群无法提供Mapreduce服务，如无法通过Mapreduce查看任务日志，无法提供Mapreduce服务的日志归档功能等。 Yarn队列资源不足 insufficientYarnQueueResources 次要 Yarn队列资源不足请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。应用任务结束时间变长。新应用提交后长时间无法运行。 HBase服务不可用 hbaseServiceUnavailable 紧急 HBase服务不可用请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。无法进行数据读写和创建表等操作。 HBase系统表目录或文件丢失 systemTablePathOrFileOfHBaseIsMissing 紧急 HBase系统表目录或文件丢失请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。 HBase服务重启/启动失败。 Hive服务不可用 hiveServiceUnavailable 紧急 Hive服务不可用请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。 Hive无法提供数据加载，查询，提取服务。 Hive数据仓库被删除 hiveDataWarehouseIsDeleted 紧急 Hive数据仓库被删除请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。 Hive默认数据仓库被删除，会导致在默认数据仓库中创建库、创建表失败，影响业务正常使用。 Hive数据仓库权限被修改 hiveDataWarehousePermissionIsModified 紧急 Hive数据仓库权限被修改请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。 Hive默认数据仓库的权限被修改，会影响当前用户，用户组，其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 HiveServer已从Zookeeper注销 hiveServerHasBeenDeregisteredFromZookeeper 重要 HiveServer已从Zookeeper注销请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。当无法在Zookeeper上读取到Hive的配置，将会导致HiveServer不可用。 tez或者spark库路径不存在 tezlibOrSparklibIsNotExist 重要 tez或者spark库路径不存在请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。 Tez或者Spark库路径不存在，会影响Hive on Tez，Hive on Spark的功能。 Hue服务不可用 hueServiceUnavailable 紧急 Hue服务不可用请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。系统无法提供数据加载，查询，提取服务。 Impala服务不可用 impalaServiceUnavailable 紧急 Impala服务不可用请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。 Impala服务异常，无法通过FusionInsight Manager对Impala进行集群操作，无法使用Impala服务功能。 Kafka服务不可用 kafkaServiceUnavailable 紧急 Kafka服务不可用请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。集群无法对外提供Kafka服务，用户无法执行新的Kafka任务。 Kafka默认用户状态异常 statusOfKafkaDefaultUserIsAbnormal 紧急 Kafka默认用户状态异常请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。 Kafka默认用户状态异常，会影响Broker之间的元数据同步，以及Kafka与ZooKeeper之间的交互，进而影响业务生产、消费和Topic的创建、删除等操作。 Kafka数据目录状态异常 abnormalKafkaDataDirectoryStatus 重要 Kafka数据目录状态异常请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。 Kafka数据目录状态异常，会导致该数据目录上所有Partition的当前副本下线，多个节点同时出现数据目录状态异常，可能会导致部分Partition不可用。存在单副本的Topic topicsWithSingleReplica 警告存在单副本的Topic 请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。单副本的Topic存在单点故障风险，当副本所在节点异常时，会直接导致Partition没有leader，影响该Topic上的业务。 KrbServer服务不可用 krbServerServiceUnavailable 紧急 KrbServer服务不可用请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。告警发生时，不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 Kudu服务不可用 kuduServiceUnavailable 紧急 Kudu服务不可用请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。用户无法使用Kudu服务。 LdapServer服务不可用 ldapServerServiceUnavailable 紧急 LdapServer服务不可用请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。告警发生时，不能对集群中的KrbServer和LdapServer用户进行任何操作。例如，无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色，也无法修改用户密码。集群中原有的用户验证不受影响。 LdapServer数据同步异常 abnormalLdapServerDataSynchronization 紧急 LdapServer数据同步异常请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。 LdapServer数据不一致时，有可能是Manager上的LdapServer数据损坏，也有可能是集群上的LdapServer数据损坏，此时数据损坏的LdapServer进程将无法对外提供服务，影响Manager和集群的认证功能。 Nscd服务异常 nscdServiceIsAbnormal 重要 Nscd服务异常请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。 nscd服务异常时，可能会影响该节点从LdapServer上同步数据，此时，使用id命令可能会获取不到Ldap中的数据，影响上层业务。 Sssd服务异常 sssdServiceIsAbnormal 重要 Sssd服务异常请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。 sssd服务异常时，可能会影响该节点从LdapServer上同步数据，此时，使用id命令可能会获取不到ldap中的数据，影响上层业务。 Loader服务不可用 loaderServiceUnavailable 紧急 Loader服务不可用请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。如果Loader服务不可用，数据加载，导入，转换的功能也不可用。 Oozie服务不可用 oozieServiceUnavailable 紧急 Oozie服务不可用请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。无法使用Oozie服务提交作业。 Ranger服务不可用 rangerServiceUnavailable 紧急 Ranger服务不可用请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。当Ranger服务不可用时，Ranger无法正常工作，Ranger原生UI无法访问。 RangerAdmin状态异常 abnormalRangerAdminStatus 重要 RangerAdmin状态异常请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。当存在单个RangerAdmin状态异常时，不影响Ranger原生UI访问；当两个RangerAdmin状态异常时，Ranger原生UI无法访问，无法执行创建、修改、删除策略等操作。 Spark2x服务不可用 spark2xServiceUnavailable 紧急 Spark2x服务不可用请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。用户提交的Spark任务执行失败。 Storm服务不可用 stormServiceUnavailable 紧急 Storm服务不可用请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。集群无法对外提供Storm服务，用户无法执行新的Storm任务。 ZooKeeper服务不可用 zooKeeperServiceUnavailable 紧急 ZooKeeper服务不可用请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。 ZooKeeper无法为上层组件提供协调服务，依赖ZooKeeper的组件可能无法正常运行。 ZooKeeper中组件顶层目录的配额设置失败 failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent 次要 ZooKeeper中组件顶层目录的配额设置失败请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。组件可以向对应的ZooKeeper顶层目录中写入大量数据，导致Zookeeper服务不可用。表37 云证书管理服务事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 CCM SYS.CCM 吊销证书 CCMRevokeCertificate 重要证书发起吊销，吊销后证书将不可使用检查吊销证书是否在预期内，可以终止吊销行为。证书吊销后，会导致业务中断。自动部署证书失败 CCMAutoDeploymentFailure 重要自动部署证书任务发生失败及时关注并且检查被替换证书的服务资源是否正常。证书过期后未部署新证书，会导致业务中断。证书过期 CCMCertificateExpiration 重要 SSL证书过期及时购买新证书。证书过期后未部署新证书，会导致业务中断。证书即将过期 CCMcertificateAboutToExpiration 重要 SSL证书即将过期，与当前时间相隔一周，一个月，两个月的证书定义为即将到期的证书及时续费或者购买新证书。证书过期后未部署新证书，会导致业务中断。表38 云桌面事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 Workspace SYS.Workspace 桌面心跳异常 desktopStatusAbnormal 重要一般是由于桌面网络不通、密钥丢失等原因。重启桌面。确认桌面时间是否与当前时间一致，否则手动调整桌面时间与当前时间一致。确认桌面是否有安装特殊的安全软件或网络连通软件，如有安装，请卸载后重启或卸载后重新安装HDCAgent再重启。桌面无法接入使用。桌面池分配桌面失败 desktopPoolAssignFailed 重要一般是由于策略等原因导致。调整桌面池策略，确保桌面池中有空闲桌面或能自动创建桌面。 Linux桌面与纯数字用户分配失败，则请开启用户名前缀功能。无法分配新的桌面。桌面接入失败 desktopAccessFailed 重要一般是由于关机重启、接入网关异常、网络故障等原因。如有关机重启等电源操作，请等待一段时间后桌面状态正常时再次尝试接入。确认网络环境，保证网络畅通的情况下重新接入。桌面无法接入使用。桌面开机失败 desktopStartFailed 重要一般是由于底层资源不足等原因导致。等待一段时间后尝试重新开机。桌面无法接入使用。桌面池自动扩容失败 desktopPoolExpandFailed 重要一般是由于实例配额不足或底层资源不足等原因导致。如果是配额不够了，优先申请扩大配额（桌面数，CPU，内存，VPC等）。如果是底层资源不够了，请等待下一个扩容周期再查看。如果不需要自动扩容桌面，请及时关闭桌面池自动扩容功能。无法扩容新的桌面。专属主机桌面迁移失败 desktopMigrateFailed 重要一般是由于主机异常导致请换其他的专属主机进行桌面迁移。请联系技术人员排查并修复专属主机问题。桌面可能无可用专属主机调度。表39 数据库代理事件来源命名空间事件名称事件ID 事件级别事件说明处理建议事件影响 DBPROXY SYS.DBPROXY 数据库代理与数据库连通性异常 proxy_connection_failure_to_db 重要数据库代理与主库建立新连接失败，与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大，或代理与数据库间网络异常观察数据库与数据库代理压力指标后（连接数、活跃连接数、CPU使用率）调整相应参数，压力指标正常情况下提工单处理通过代理访问的业务流量中断数据库代理与数据库只读库连通性异常 proxy_connection_failure_to_replica 一般数据库代理与只读库建立新连接失败。一般是由于只读库压力过大，或代理与只读库间网络异常观察只读库压力指标后（连接数、活跃连接数、CPU使用率）调整相应参数，压力指标正常情况下提工单处理通过代理访问的业务读流量部分中断数据库安全组未放通数据库代理地址 proxy_connection_failure_cause_security_group 重要一般是由于数据库安全组未放通代理地址导致修改数据库所使用安全组规则放通代理地址通过代理访问的业务流量中断父主题：事件监控

云监控服务 CES 事件监控
云监控服务 CES-Linux:操作步骤

操作步骤使用root账号，登录ECS。执行如下命令，确认当前Agent的版本是新架构Uniagent还是老架构telescope。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi 返回“old agent”，表示使用的是老版本Agent（telescope架构）。返回版本号，表示使用新版本Agent（Uniagent架构）。返回“0”，表示未安装Agent。卸载当前版本的Agent。如果2中返回old agent，代表当前Agent为老版本，卸载命令参见卸载Agent（老版本）。如果2中返回版本号，代表当前Agent为新版本，卸载命令参见卸载Agent（新版本）。安装最新版本的Agent，安装命令参见操作步骤。

云监控服务 CES 升级Agent
云监控服务 CES-单台主机下安装Agent:操作步骤

操作步骤使用root账号，登录主机。执行以下命令，安装Agent，安装脚本分为agent_install.sh和agentInstall.sh，分别对应以下两种命令。新架构Agent： cd /usr/local && curl -k -O ${download_url} && bash agent_install.sh -t ${version} -r ${regionID} 老架构Agent： cd /usr/local && curl -k -O ${download_url} && bash agentInstall.sh 表1中老架构的区域包括：华南-广州-友好用户环境、拉美-圣保罗一、拉美-墨西哥城一，其余都属于新架构。将${download_url} 替换成表1中的下载路径，将${version}替换成Agent版本特性中的版本，将${regionID}替换成表1中的regionID。例如，用北京一下载地址替换${download_url}，对应的安装命令为： cd /usr/local && curl -k -O https://obs.cn-north-1.myhuaweicloud.com/uniagent-cn-north-1/package/agent_install.sh && bash agent_install.sh -t 2.7.2 -r cn-north-1 命令执行完成时，输出Telescope process starts successfully.则代表安装成功。执行如下命令，清除安装脚本。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then rm /usr/local/agent_install.sh; else rm /usr/local/agentInstall.sh; fi Agent插件配置完成后，因监控数据暂未上报，插件状态仍显示“未安装”，等待3-5分钟，刷新即可。

云监控服务 CES 安装Agent（Linux）

云监控服务 CES

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

云服务器内容精选

云监控服务 CES

7*24

备案

专业服务

退订

建议反馈

售前咨询热线