AI开发平台MODELARTS-GPU服务器上配置Lite Server资源软件环境:GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7
AI开发平台MODELARTS-GPU服务器上配置Lite Server资源软件环境:GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7
GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7
本小节旨在指导如何在GP Vnt1裸金属服务器上(Euler2.9系统),安装NVIDIA驱动版本515.105.01,CUDA版本11.7.1。
- 安装NVIDIA驱动。
wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run chmod 700 NVIDIA-Linux-x86_64-515.105.01.run yum install -y elfutils-libelf-devel ./NVIDIA-Linux-x86_64-515.105.01.run --kernel-source-path=/usr/src/kernels/4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64
默认情况下Vnt1裸金属服务器在EulerOS 2.9使用的yum源是“http://repo.huaweicloud.com”,该源可用。若执行“yum update”时报错, 显示有软件包冲突等问题, 可通过“yum remove xxx软件包”解决该问题。
NVIDIA的驱动程序是一个二进制文件,需使用系统中的libelf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数,用于读取、修改和创建ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。
安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息。
nvidia-smi -pm 1 #该命令执行时间较长,请耐心等待,作用为启用持久模式,可以优化Linux实例上GPU设备的性能 nvidia-smi
- 安装CUDA。
wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run chmod 700 cuda_11.7.1_515.65.01_linux.run ./cuda_11.7.1_515.65.01_linux.run --toolkit --samples --silent
安装好后执行以下命令检查安装结果:
/usr/local/cuda/bin/nvcc -V
- PyTorch2.0安装和CUDA验证指南。
PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。
- miniconda安装并创建alpha环境。
wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda export PATH=/home/miniconda/bin:$PATH conda create --quiet --yes -n alpha python=3.10
- 安装pytorch2.0并验证cuda状态。
在alpha环境下安装torch2.0,使用清华PIP源完成。
source activate alpha pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple python
验证torch与cuda的安装状态,输出为True即为正常。import torch print(torch.cuda.is_available())
- miniconda安装并创建alpha环境。