云服务器内容精选

  • 问题描述 用户业务是做渲染(推理)的,但用户选择了带Tesla驱动(GRID驱动)的公共镜像,运行软件时出错。 例:用户使用场景为做渲染,但选错公共镜像,运行软件时报错“A D3D11-compatible GPU (Feature Level 11.0,Shader Model 5.0) is required to run the engine”。 用户业务是做渲染(推理)的,但用户选择了不带驱动的公共镜像,且未单独安装驱动,导致GPU能力不可用,执行nvidia-smi命令报错“command not found”。
  • 判断方式 确认用户业务使用场景。 用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。 如果用户使用的是异构发布的公共镜像,可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样,则选择该镜像会安装tesla驱动;如带有with grid字样,则选择该镜像会安装GRID驱动(不包括License)。 如果用户使用的是私有镜像或其他镜像,可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。 如客户选择自行安装Tesla驱动,请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系,可参考Tesla驱动及CUDA工具包获取方式。
  • 处理方法 查看云服务器的实例规格,确认用户使用的镜像信息。 如果使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格),请参见T4 GPU设备显示异常进行处理。 如果使用其他规格的 GPU云服务器 ,执行下一步。 查看系统日志“/var/log/message”,是否存在驱动相关报错。 如果存在报错“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。 执行以下命令,开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令,打开并编辑“/etc/rc.local”文件。 vim /etc/rc.local 配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。 按“Esc”,输入:wq保存并退出。 执行以下命令,添加启动权限。 chmod +x /etc/rc.d/rc.local 若未查到相关报错,执行下一步。 查看实例的Tesla驱动版本是否为510.xx.xx。 是,该驱动版本与所用镜像可能存在兼容性问题,建议更换驱动版本,请参考安装GPU驱动。 否,请执行下一步。 如果仍未确认根因,请根据故障信息收集操作后联系技术支持处理。