AI开发平台MODELARTS-GPU服务器上配置Lite Server资源软件环境:安装nvidia-fabricmanager

时间:2024-10-12 17:44:09

安装nvidia-fabricmanager

Ant系列GPU支持NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。

nvidia-fabricmanager必须和nvidia driver版本保持一致。

以安装515.105.01版本为例。

version=515.105.01
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

验证驱动安装结果:启动fabricmanager服务并查看状态是否为“RUNNING”。

nvidia-smi -pm 1
nvidia-smi
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl status nvidia-fabricmanager
support.huaweicloud.com/usermanual-server-modelarts/usermanual-server-0012.html