检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
经过对裸金属服务器排查,发现nvidia-drvier和cuda都已安装,并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联,在多卡GPU机器上,出现这种问题可能是nvidia-fabricmanger异常导致。 执行以下命令,查看NVIDIA和CUD
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置
[镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:${image_name}:${image_version}请替换为您所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,即1.c中登录指令末尾的域名。 [组织名称]:/${organization_name}请替换为您创建的组织。
[镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:${image_name}:${image_version}请替换为您所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,即1.c中登录指令末尾的域名。 [组织名称]:/${organization_name}请替换为您创建的组织。
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
ECS获取基础镜像 Step1 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图1
参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_1_ascend:20240606 示例: docker
{image_url} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:Step3中自己创建的组织名称。示例:GROUP_NAME <镜像名称>:<版本名称>:定义镜像名
${image_name}为推理镜像名称,示例:swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag>。<组织名称>为Step2 创建镜像组织中创建的组织名称,<镜像名称>:<tag>为自定义镜像名称。 打印如下信息,表示构建镜像成功。
${image_name}为推理镜像名称,示例:swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag>。<组织名称>为Step2 创建镜像组织中创建的组织名称,<镜像名称>:<tag>为自定义镜像名称。 打印如下信息,表示构建镜像成功。
swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag> . 参数说明: <组织名称>:前面步骤中创建的组织名称。 <镜像名称>:<tag>:定义镜像名称。示例:llama_ascend_pytorch_2_1:0.5.3 打印如下信息,表示构建镜像成功。
${image_name}为推理镜像名称,示例:swr.cn-southwest-2.myhuaweicloud.com/<组织名称>/<镜像名称>:<tag>。<组织名称>为Step2 创建镜像组织中创建的组织名称,<镜像名称>:<tag>为自定义镜像名称。 打印如下信息,表示构建镜像成功。