AI开发平台MODELARTS-GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 470+CUDA 11.3:1、GPU环境安装指南

时间:2024-09-05 08:36:23

1、GPU环境安装指南

  1. 安装NVIDIA驱动。

    wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
    chmod +x NVIDIA-Linux-x86_64-470.182.03.run
    ./NVIDIA-Linux-x86_64-470.182.03.run

  2. 安装CUDA。

    不能选择Driver,否则会覆盖已安装的NVIDIA驱动。

    wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
    chmod +x cuda_11.3.1_465.19.01_linux.run
    ./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent

  3. 安装nvidia-fabricmanager。

    Ant系列GPU支持NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。

    fabricmanager版本一定要和nvidia驱动版本必须保持一致。

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-470_470.182.03-1_amd64.deb
    sudo dpkg -i ./nvidia-fabricmanager-470_470.182.03-1_amd64.deb

  4. 验证fabricmanager安装结果。

    验证驱动安装结果、启动fabricmanager服务并查看状态。
    nvidia-smi -pm 1
    nvidia-smi
    systemctl enable nvidia-fabricmanager
    systemctl start nvidia-fabricmanager
    systemctl status nvidia-fabricmanager

  5. 汇总安装脚本。

    在GP Ant8型实例中, 使用bash一键执行如下脚本,实现快速安装GPU环境。
    wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
    chmod +x NVIDIA-Linux-x86_64-470.182.03.run
    ./NVIDIA-Linux-x86_64-470.182.03.run --silent --no-questions
    
    wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
    chmod +x cuda_11.3.1_465.19.01_linux.run
    ./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent
    
    version=470.182.03
    main_version=$(echo $version | awk -F '.' '{print $1}')
    apt-get update
    apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0077.html