检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile Uncorr. ECC下ecc error > 0,执行nvidia-smi -q -i &.{gpu_id}查看卡的详细信息。 如果在volatile
fixed_ip 是 String 私有IP地址。 id 是 String 浮动IP的ID,UUID格式。 instance_id 是 String 被绑定主机的ID,UUID格式。 ip 是 String 浮动IP的IP地址。 pool 是 String 网络资源池名称,分配浮动IP地址。
删除安全组(废弃) 功能介绍 删除安全组。 当前API已废弃,请使用“删除安全组”。 URI DELETE /v2.1/{project_id}/os-security-groups/{security_group_id} 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述
security_group 是 Object security_group对象,在消息体中指定,请参见表3。 表3 请求参数security_group的对象 参数 是否必选 参数类型 描述 name 否 String 安全组名称,长度0-255。 description 否 String 安全组描述,长度0-255。
删除安全组规则(废弃) 功能介绍 删除安全组规则。 当前API已废弃,请使用“删除安全组规则”。 URI DELETE /v2.1/{project_id}/os-security-group-rules/{security_group_rule_id} 参数说明请参见表1。 表1
如何处理用户安装了GRID驱动,但未购买、配置License问题 问题描述 用户业务是做图形处理的,且用户已经安装了GRID驱动,但用户的GPU使用率很低或渲染性能达不到预期。 例:运行图像识别任务,任务会突然卡住无法继续运行,GPU的性能表现差;查看/var/log/messages日志发现有如下报错,
搭建Discuz! 论坛网站操作流程 图1 搭建Discuz! 论坛网站操作流程 父主题: 搭建Discuz! 论坛网站
回显结果中出现No表示不存在待隔离页。 如果1的回显结果中volatile Uncorr. ECC下ecc error = 0,执行以下命令,查看所有的卡是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果3的回显结果中Pending Page Bl
接口约束 接口参数为:router:external=True GET /networks?router:external=True 返回结果中的name字段 URI GET /v2.1/{project_id}/os-floating-ip-pools 参数说明请参见表1。 表1 参数说明
如何处理显卡ERR!问题 问题描述 执行nvidia-smi命令,仅Pwr:Usage/Cap(能耗)显示ERR! 处理方法 如果当前用户业务正常,仅nvidia-smi执行后存在ERR!显示问题,无需处理。 如果当前业务已经受到影响,迁移虚拟机,再根据故障信息收集收集故障信息后联系技术支持处理。
件,安装过程出错问题 问题描述 用户使用不带驱动的公共镜像或私有镜像,自行安装NVIDIA驱动软件包、CUDA软件包,在安装过程中脚本执行报错。 判断方式 确认用户使用的镜像文件。 确认用户的NVIDIA软件包来源。 确认用户想要的目标NVIDIA软件包版本以及CUDA软件版本。
pip安装软件时出现错误:command ´gcc´ failed with exit status 1 问题描述 安装Python库软件时,需配置pip源。以中国科技大学镜像源为例: [root@test home]# cat /root/.pip/pip.conf [global]
Linux镜像安装一键式重置密码插件启动失败怎么办? 操作场景 Linux镜像安装一键式重置密码插件启动失败,请参考本章节处理。 问题描述 用户通过执行命令sudo sh setup.sh安装一键式重置密码插件,有如下报错: begin install CloudResetPwdAgent
stream,推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。 79 GPU has fallen off the bus。总线脱落,需要下线维修 详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/
问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。 处理方法 用户停止业务并执行业务迁移。 执行业务迁移后,根据故障信息收集收集故障信息后联系技术支持处理。
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” 问题原因 总线脱落。 内核版本不一致。 问题影响 显卡驱动安装失败,显卡无法使用。 处理方法 执行以下命令,查看内核版本,检查内核版本是否一致。 rpm -qa | grep
可能是因为显卡过热,用户先停止业务,待显卡缓解过热后再执行nvidia-smi命令,查看ERR!是否消失。 如果回显正常,建议用户调整下业务,限制显卡运行的最大功率。 如果仍未恢复正常,根据故障信息收集收集故障信息后联系技术支持处理。 父主题: 显卡故障诊断及处理方法