云服务器内容精选
-
安装 CES Agent监控插件 当前账户需要给CES授权委托,请参考创建用户并授权使用 云监控服务 。 当前还不支持在CES界面直接一键安装监控,需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。 cd /usr/local && curl -k -O https://obs.cn-north-4.myhuaweicloud.com/uniagent-cn-north-4/script/agent_install.sh && bash agent_install.sh 安装成功的标志如下: 图1 安装成功提示 在CES界面查看具体的监控项,加速卡类的监控项必须在主机安装加速卡驱动后才会有相关指标。 图2 监控界面 至此,监控插件已经安装完成,相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。
-
Lite Server支持的事件列表 通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES 云监控 服务,并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS,具体事件列表如下。 表2 Lite Server支持的事件列表 事件来源 命名空间 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 BMS SYS.BMS NPU: npu-smi info查询缺少设备 NPUSMICardNotFound 重要 可能是由于昇腾驱动问题或NPU掉卡 转昇腾和硬件处理 NPU卡无法正常使用 NPU: PCIe链路异常 PCIeErrorFound 重要 lspci显示npu卡处于rev ff状态 转硬件处理 NPU卡无法正常使用 NPU: lspci查询缺少设备 LspciCardNotFound 重要 一般是由于NPU掉卡 转硬件处理 NPU卡无法正常使用 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要 可能是由于DDR颗粒温度过高或过温软件预警 暂停业务,重启系统,查看散热系统,device复位 可能造成过温下电及device丢失 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorWarning 重要 NPU卡出现Uncorrectable ECC Error硬件故障 如果业务受到影响,转硬件换卡 业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示 当前故障很可能需要重启进行恢复 在收集必要信息后,重启以尝试恢复 重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示 当前故障很可能需要复位SOC进行恢复 在收集必要信息后,复位SOC以尝试恢复 复位SOC可能中断客户业务 NPU: 需要退出AI任务重新执行 RestartAIProcess 提示 当前故障很可能需要客户退出当前的AI任务并尝试重新执行 在收集必要信息后,尝试退出当前AI任务并尝试重新执行 退出当前AI任务以便重新执行 NPU: errorcode告警 NPUErrorCodeWarning 重要 这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障,可能导致客户业务终止 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 NPU: HC CS 交换机端口故障 NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 GPU: RoCE网卡配置错误 GpuRoceNicConfigIncorrect 重要 GPU: RoCE网卡配置错误 联系运维人员协助处理 机器参数面网络异常,多机任务无法执行 OS出现ReadOnly问题 ReadOnlyFileSystem 严重 文件系统%s只读 请检查磁盘健康状态 无法对文件进行写和操作 NPU:驱动固件不匹配 NpuDriverFirmwareMismatch 重要 NPU驱动固件版本不匹配 请从昇腾官网获取匹配版本重新安装 无法正常使用NPU卡 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 重要 容器插件Ascend-Docker-Runtime未安装 安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡 docker容器无法挂载NPU卡 重要 操作系统没有开启IP转发功能 请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 docker容器无法正常网络通信 重要 容器共享内存过小 共享内存默认为64M,可按需修改 分布式训练时共享内存不足导致训练失败 方式一: 修改/etc/docker/daemon.json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 NPU:RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down 请检查NPU Roce网口状态 NPU网卡不可用 NPU:RoCE网卡健康状态异常 RoCEHealthStatusError 重要 NPU 卡 %d RoCE 网络健康状态异常 请检查NPU Roce网卡健康状态 NPU网卡不可用 NPU:Roce网卡配置文件/etc/hccn.conf不存在 HccnConfNotExisted 重要 Roce网卡配置文件"/etc/hccn.conf"不存在 请检查/etc/hccn.conf网卡配置文件 Roce网卡不可用 GPU:GPU基本组件异常 GpuEnvironmentSystem 重要 nvidia-smi命令异常 请检查GPU驱动是否正常 GPU卡驱动不可用 重要 nvidia-fabricmanager版本和GPU驱动版本不一致 请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager 无法正常工作,影响 GPU 的使用 重要 容器插件nvidia-container-toolkit未安装 安装容器插件nvidia-container-toolkit docker无法挂载GPU卡 本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败 挂载磁盘错误,导致机器重启异常 GPU:Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。 请正确配置RoCE网卡路由 NPU网络通信异常 NPU:Roce 端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置 请检查NPU RoCE UDP端口配置情况 影响NPU卡通信性能 系统内核自动升级预警 KernelUpgradeWarning 重要 系统内核自动升级预警,旧版本:%s,新版本:%s 系统内核升级可能导致配套AI软件异常,请检查系统更新日志,避免机器重启 可能导致配套AI配套软件不可用 NPU环境相关命令检测 NpuToolsWarning 重要 hccn_tool不可用 请检查NPU驱动是否正常 无法配置RoCE网卡的IP、网关 重要 npu-smi不可用 请检查NPU驱动是否正常 无法正常使用NPU卡 重要 ascend-dmi不可用 请检查工具包ToolBox是否正常安装 无法使用ascend-dmi进行性能分析
-
监控方案介绍 监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。 监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集的相关指标。此处仅展示NPU相关指标,其他指标项请参考CES Agent支持的指标列表。 表1 NPU指标列表 英文名称 中文名称 说明 单位 维度 npu_device_health NPU健康状况 NPU卡的健康状况 - instance_id,npu npu_util_rate_mem NPU显存使用率 NPU卡的显存使用率 % instance_id,npu npu_util_rate_ai_core NPU卡AI核心使用率 NPU卡的AI核心使用率 % instance_id,npu npu_util_rate_ai_cpu NPU卡AICPU使用率 NPU卡的AI-CPU使用率 % instance_id,npu npu_util_rate_ctrl_cpu NPU控制CPU使用率 NPU卡的控制CPU使用率 % instance_id,npu npu_util_rate_mem_bandwidth NPU显存带宽使用率 NPU卡的显存带宽使用率 % instance_id,npu npu_freq_mem NPU显存频率 NPU卡的显存频率 MHz instance_id,npu npu_freq_ai_core NPU卡AI核心频率 NPU卡的AI核心时钟频率 MHz instance_id,npu npu_usage_mem NPU显存使用量 NPU卡的显存使用量 MB instance_id,npu npu_sbe NPU单bit错误数量 NPU卡单比特错误数量 count instance_id,npu npu_dbe NPU双bit错误数量 NPU卡双比特错误数量 count instance_id,npu npu_power NPU功率 NPU卡功率 W instance_id,npu npu_temperature NPU温度 NPU卡温度 °C instance_id,npu npu_driver_health NPU驱动健康状况 NPU卡的驱动的健康状况 - instance_id,npu npu_device_network_health NPU网络健康情况 NPU卡的RoCE网卡的IP地址连通情况 - instance_id,npu npu_network_port_link_status NPU网口link状态 NPU卡的对应网口link状态 - instance_id,npu npu_roce_tx_rate NPU网卡上行速率 NPU卡内网卡的上行速率 MB/s instance_id,npu npu_roce_rx_rate NPU网卡下行速率 NPU卡内网卡的下行速率 MB/s instance_id,npu npu_mac_tx_mac_pause_num MAC发送pause帧总数 NPU卡对应MAC 地址发送的 pause帧总报文数 count instance_id,npu npu_mac_rx_mac_pause_num MAC接收pause帧总数 NPU卡对应MAC 地址接收的 pause帧总报文数 count instance_id,npu npu_mac_tx_pfc_pkt_num MAC发送pfc帧总数 NPU卡对应MAC 地址发送的 PFC帧总报文数 count instance_id,npu npu_mac_rx_pfc_pkt_num MAC接收pfc帧总数 NPU卡对应MAC 地址接收的 PFC帧总报文数 count instance_id,npu npu_mac_tx_bad_pkt_num MAC发送坏包总数 NPU卡对应MAC 地址发送的 坏包总数 count instance_id,npu npu_mac_rx_bad_pkt_num MAC接收坏包总数 NPU卡对应MAC 地址接收的 坏包总数 count instance_id,npu npu_roce_tx_err_pkt_num RoCE发送坏包总数 NPU卡内RoCE网卡发送的坏包总数 count instance_id,npu npu_roce_rx_err_pkt_num RoCE接收坏包总数 NPU卡内RoCE网卡接收的坏包总数 count instance_id,npu npu_hbm_freq HBM频率 NPU卡HBM频率 MHz instance_id,npu npu_hbm_usage HBM使用量 NPU卡HBM使用量 MB instance_id,npu npu_hbm_temperature HBM温度 NPU卡HBM温度 °C instance_id,npu npu_hbm_bandwidth_util HBM带宽利用率 NPU卡HBM带宽利用率 % instance_id,npu npu_hbm_ecc_enable HBM ECC开关状态 NPU卡HBM ECC开关状态 - instance_id,npu npu_hbm_single_bit_error_cnt HBM当前单bit错误数量 NPU卡HBM当前单bit错误数量 count instance_id,npu npu_hbm_double_bit_error_cnt HBM当前双bit错误数量 NPU卡HBM当前双bit错误数量 count instance_id,npu npu_hbm_total_single_bit_error_cnt HBM生命周期内单bit错误数量 NPU卡HBM生命周期内单bit错误数量 count instance_id,npu npu_hbm_total_double_bit_error_cnt HBM生命周期内双bit错误数量 NPU卡HBM生命周期内双bit错误数量 count instance_id,npu npu_hbm_single_bit_isolated_pages_cnt HBM单比特错误隔离内存页数量 NPU卡HBM单比特错误隔离内存页数量 count instance_id,npu npu_hbm_double_bit_isolated_pages_cnt HBM多比特错误隔离内存页数量 NPU卡HBM多比特错误隔离内存页数量 count instance_id,npu npu_hbm_mem_capacity NPU的HBM内存容量 该指标描述NPU的HBM内存容量 MB instance_id,npu npu_voltage NPU电压 该指标描述NPU的电压 V instance_id,npu npu_freq_ai_core_rated NPU的AI核心额定频率 该指标描述NPU的AI核心额定频率 MHz instance_id,npu npu_freq_ctrl_cpu NPU的控制CPU频率 该指标描述NPU的控制CPU频率 MHz instance_id,npu npu_aicpu_max_freq NPU的AICPU最大频率 该指标描述NPU的AICPU最大频率 MHz instance_id,npu npu_aicpu_cur_freq NPU的AICPU频率 该指标描述NPU的AICPU频率 MHz instance_id,npu npu_aicpu_avg_util_rate NPU的AICPU平均使用率 该指标描述NPU的AICPU平均使用率 % instance_id,npu npu_aicpu_num NPU的AICPU数量 该指标描述NPU的AICPU数量 count instance_id,npu npu_link_cap_speed NPU链路最大传输速度 该指标描述NPU设备支持的最大传输速度 GT/s instance_id,npu npu_link_cap_width NPU链路最大传输宽度 该指标描述NPU设备支持的最大传输宽度 count instance_id,npu npu_link_status_speed NPU链路当前传输速度 该指标描述NPU设备链路的实际传输速度 GT/s instance_id,npu npu_link_status_width NPU链路当前传输宽度 该指标描述NPU设备链路的实际传输宽度 count instance_id,npu npu_util_rate_hbm NPU的HBM占用率 该指标描述NPU的HBM占用率 % instance_id,npu npu_opt_temperature NPU光模块壳温 该指标描述NPU光模块壳温 °C instance_id,npu npu_opt_temperature_high_thres NPU光模块壳温上限 该指标描述NPU光模块壳温上限 °C instance_id,npu npu_opt_temperature_low_thres NPU光模块壳温下限 该指标描述NPU光模块壳温下限 °C instance_id,npu npu_opt_voltage NPU光模块供电电压 该指标描述NPU光模块供电电压 mV instance_id,npu npu_opt_voltage_high_thres NPU光模块供电电压上限 该指标描述NPU光模块供电电压上限 mV instance_id,npu npu_opt_voltage_low_thres NPU光模块供电电压下限 该指标描述NPU光模块供电电压下限 mV instance_id,npu npu_opt_tx_power_lane0 NPU光模块通道0发送功率 该指标描述NPU光模块通道0发送功率 mW instance_id,npu npu_opt_tx_power_lane1 NPU光模块通道1发送功率 该指标描述NPU光模块通道1发送功率 mW instance_id,npu npu_opt_tx_power_lane2 NPU光模块通道2发送功率 该指标描述NPU光模块通道2发送功率 mW instance_id,npu npu_opt_tx_power_lane3 NPU光模块通道3发送功率 该指标描述NPU光模块通道3发送功率 mW instance_id,npu npu_opt_rx_power_lane0 NPU光模块通道0接收功率 该指标描述NPU光模块通道0接收功率 mW instance_id,npu npu_opt_rx_power_lane1 NPU光模块通道1接收功率 该指标描述NPU光模块通道1接收功率 mW instance_id,npu npu_opt_rx_power_lane2 NPU光模块通道2接收功率 该指标描述NPU光模块通道2接收功率 mW instance_id,npu npu_opt_rx_power_lane3 NPU光模块通道3接收功率 该指标描述NPU光模块通道3接收功率 mW instance_id,npu npu_opt_tx_bias_lane0 NPU光模块通道0发射偏置电流 该指标描述NPU光模块通道0发射偏置电流 mA instance_id,npu npu_opt_tx_bias_lane1 NPU光模块通道1发射偏置电流 该指标描述NPU光模块通道1发射偏置电流 mA instance_id,npu npu_opt_tx_bias_lane2 NPU光模块通道2发射偏置电流 该指标描述NPU光模块通道2发射偏置电流 mA instance_id,npu npu_opt_tx_bias_lane3 NPU光模块通道3发射偏置电流 该指标描述NPU光模块通道3发射偏置电流 mA instance_id,npu npu_opt_tx_los NPU光模块TX Los 该指标描述NPU光模块TX Los flag count instance_id,npu npu_opt_rx_los NPU光模块RX Los 该指标描述NPU光模块RX Los flag count instance_id,npu
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格