华为云UCS-gpu-device-plugin:安装nvidia-fabricmanager服务

时间:2024-11-26 21:02:19

安装nvidia-fabricmanager服务

A100/A800 GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。

本文以驱动版本470.103.01为例,您可参考以下步骤进行安装,请根据实际情况需要替换驱动版本。

  1. 登录需要安装nvidia-fabricmanager服务的GPU节点,该节点需绑定EIP用以下载nvidia-fabricmanager服务。
  2. 安装与驱动版本对应的nvidia-fabricmanager服务,您可通过官方下载操作系统和驱动版本对应的安装包。

    • CentOS操作系统
      以CentOS 7为例:
      driver_version=470.103.01
      wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel7/x86_64/cuda-drivers-fabricmanager-${driver_version}-1.x86_64.rpm
      rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm
    • Ubuntu等其他操作系统
      以Ubuntu 18.04为例:
      driver_version=470.103.01
      driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}')
      wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb
      dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb

  3. 启动nvidia-fabricmanager服务。

    systemctl enable nvidia-fabricmanager
    systemctl start nvidia-fabricmanager

  4. 查看nvidia-fabricmanager服务状态。

    systemctl status nvidia-fabricmanager

support.huaweicloud.com/usermanual-ucs/ucs_10_0141.html