-
示例:从0到1制作自定义镜像并用于训练(MindSpore+GPU) - AI开发平台ModelArts
stall/linux.html#installing-on-linux # 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中 RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64
-
示例:从0到1制作自定义镜像并用于训练(Tensorflow+GPU) - AI开发平台ModelArts
stall/linux.html#installing-on-linux # 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中 RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64
-
示例:从0到1制作自定义镜像并用于训练(PyTorch+CPU/GPU) - AI开发平台ModelArts
1-cp37-cp37m-linux_x86_64.whl /tmp # https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux # 安装 Miniconda3
-
NPU Snt9B裸金属服务器支持的镜像详情 - AI开发平台ModelArts
areMetal-with-CANN7.0.RC1 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 内核版本 Linux 4.19.90-vhulk2211.3.0.h1543.eulerosv2r10.aarch64 架构类型 aarch64 npu-driver
-
NPU Snt9裸金属服务器支持的镜像详情 - AI开发平台ModelArts
19.36-vhulk1907.1.0.h619.eulerosv2r8.aarch64 架构类型 aarch64 mlnx-ofed-linux 21.0.2 父主题: 镜像介绍
-
准备镜像 - AI开发平台ModelArts
上传至OBS中。 Step10 通过openssl创建SSL pem证书 在ECS中执行如下命令,会在当前目录生成cert.pem和key.pem,并将生成的pem证书上传至OBS。证书用于后续在推理生产环境中部署HTTPS推理服务。 openssl genrsa -out key
-
示例:从0到1制作自定义镜像并用于训练(MPI+CPU/GPU) - AI开发平台ModelArts
/latest/user-guide/install/linux.html#installing-on-linux RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64.sh -b -p /home/ma-user/miniconda3
-
示例:从0到1制作自定义镜像并用于训练(MPI+CPU/GPU) - AI开发平台ModelArts
/latest/user-guide/install/linux.html#installing-on-linux RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64.sh -b -p /home/ma-user/miniconda3
-
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? - AI开发平台ModelArts
问题现象 或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。 原因分析 当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS Code文档。 解决方法 若当前环境未安装
-
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 - AI开发平台ModelArts
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 若本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS
-
DCGM监控方案 - AI开发平台ModelArts
DCGM监控方案 场景描述 本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 前提条件 裸金属服务器需要安装drive
-
上传算法至SFS - AI开发平台ModelArts
链接。 脚本中的"https://${bucket_name}.obs.cn-north-4.myhuaweicloud.com/${folder_name}/obsutil_linux_amd64.tar.gz",需要替换为上一步中obsutil_linux_amd64.tar
-
训练作业性能降低 - AI开发平台ModelArts
进行过修改。 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。 通过CloudShell登录到Linux工作页面,检查GPU工作情况: 通过输入“nvidia-smi”命令,查看GPU工作是否异常。 通过输入“nvidia-smi -q -d
-
GPU裸金属服务器使用EulerOS内核误升级解决方案 - AI开发平台ModelArts
Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。 原因分析 分析EulerOS内核是如何在不知情的情况下升级的: 首先查看当前操作系统内核。 [root@devserver-ddff
-
AIGC工具tailor使用指导 - AI开发平台ModelArts
ag包:mindspore-lite-2.2.10-linux-aarch64.tar.gz。 如果机器规格为Snt3P,则下载操作系统为Linux-x86_64的tag包:mindspore-lite-2.2.10-linux-x64.tar.gz。 安装方式如下: MindSpore
-
示例:从0到1制作自定义镜像并用于训练(PyTorch+CPU/GPU) - AI开发平台ModelArts
1+cu111-cp37-cp37m-linux_x86_64.whl torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl torchvision-0.9.1+cu111-cp37-cp37m-linux_x86_64.whl “+”符号的U
-
自定义镜像软件版本匹配注意事项 - AI开发平台ModelArts
lArts的软件库相匹配。您镜像中的软件版本需要满足以下要求: NCCL版本 ≥ 2.7.8。 OFED版本 ≥ MLNX_OFED_LINUX-5.4-3.1.0.0。 CUDA版本需要参考专属资源池的GPU驱动版本,自主进行适配,GPU驱动版本可在专属资源池详情页面查看。 父主题:
-
示例:从0到1制作自定义镜像并用于训练(Tensorflow+GPU) - AI开发平台ModelArts
stall/linux.html#installing-on-linux # 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中 RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64
-
示例:从0到1制作自定义镜像并用于训练(MindSpore+GPU) - AI开发平台ModelArts
stall/linux.html#installing-on-linux # 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中 RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64
-
GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 - AI开发平台ModelArts
1/local_installers/cuda_11.7.1_515.65.01_linux.run chmod 700 cuda_11.7.1_515.65.01_linux.run ./cuda_11.7.1_515.65.01_linux.run --toolkit --samples --silent