弹性云服务器 ECS-如何处理驱动兼容性问题:处理方法

时间:2024-05-09 19:44:13

处理方法

  1. 查看云服务器的实例规格,确认用户使用的镜像信息。
  2. 查看系统日志“/var/log/message”,是否存在驱动相关报错。
    • 如果存在报错“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。

      1. 执行以下命令,开启驱动持久化模式。

        nvidia-smi -pm 1

      2. 执行以下命令,打开并编辑“/etc/rc.local”文件。

        vim /etc/rc.local

      3. 配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。
      4. 按“Esc”,输入:wq保存并退出。
      5. 执行以下命令,添加启动权限。

        chmod +x /etc/rc.d/rc.local

    • 若未查到相关报错,执行下一步。
  3. 查看实例的Tesla驱动版本是否为510.xx.xx。
    • 是,该驱动版本与所用镜像可能存在兼容性问题,建议更换驱动版本,请参考安装GPU驱动
    • 否,请执行下一步。
  4. 如果仍未确认根因,请根据故障信息收集操作后联系技术支持处理。
support.huaweicloud.com/trouble-ecs/ecs_trouble_1619.html