云服务器内容精选

  • 如何选择GPU节点驱动版本 一般情况下,使用GPU资源时您将会使用以下软件包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA Toolkit的基础镜像构建应用容器镜像。GPU驱动和CUDA Toolkit版本需要配套才可以正常使用GPU资源。 您可以使用nvidia-smi命令查看的节点上驱动信息,确定Nvidia驱动与CUDA Toolkit版本的配套关系,如下图,驱动版本为470.141.03, 对应支持的CUDA Toolkit最大版本为11.4。 图1 Nvidia驱动与CUDA Toolkit版本的配套关系
  • 步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510.47.03。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群控制台。 在集群的插件中心,找到 CCE AI套件(NVIDIA GPU),单击“编辑”。 通过节点池更新节点上的显卡驱动,在“驱动选择”下方选择需要更新驱动的节点池,填写驱动链接,单击“安装”。 本文档中更新后的驱动为535.54.03,链接为NVIDIA官网链接。如果节点无法访问公网,请先下载驱动然后上传到OBS桶中,然后将驱动的OBS链接填在此处,详情请参见获取驱动链接-OBS地址。 等待插件状态变为“运行中”。
  • 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi 查看节点上实际的驱动,驱动版本为535.54.03,驱动版本已更新。 确认节点及业务运行正常,依次重启节点池下的其他节点。