检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
f791-452b-9098-a2726fa2e922", "image" : { "arch" : "X86", "image_id" : "c90fb553-2cdb-4b81-b56a-ef68812c6cf7", "name" : "Ubuntu18.04
表3 AI Gallery预置镜像列表 引擎类型 资源类型 版本名称 PyTorch NPU pytorch_2.0.1-cann_6.3.2-py_3.9-euler_2.10.7-aarch64 GPU pytorch_2.0.0-cuda_11.7-py_3.9.11-ubuntu
18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) × 多机多卡 按需购买 (普通OBS桶) 包月购买 (HPC型500G) 免费 免费 包月购买 免费 包月购买 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带
-ubuntu18.04(详见引擎版本一:pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64)。
62383738-e52a-450a-9f84-f9e705402be8", "image" : { "arch" : "X86", "image_id" : "c90fb553-2cdb-4b81-b56a-ef68812c6cf7", "name" : "Ubuntu18.04
62383738-e52a-450a-9f84-f9e705402be8", "image" : { "arch" : "X86", "image_id" : "c90fb553-2cdb-4b81-b56a-ef68812c6cf7", "name" : "Ubuntu18.04
62383738-e52a-450a-9f84-f9e705402be8", "image" : { "arch" : "X86", "image_id" : "c90fb553-2cdb-4b81-b56a-ef68812c6cf7", "name" : "Ubuntu18.04
查询OS的配置参数 功能介绍 获取ModelArts OS服务的配置参数,如网络网段,用户资源配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
62383738-e52a-450a-9f84-f9e705402be8", "image" : { "arch" : "X86", "image_id" : "c90fb553-2cdb-4b81-b56a-ef68812c6cf7", "name" : "Ubuntu18.04
tf1.13-python3.6-gpu tf1.13-python3.6-cpu tf1.13-python3.7-cpu tf1.13-python3.7-gpu tf2.1-python3.7(待下线) tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu
查询OS的配额 功能介绍 获取ModelArts OS服务中部分资源的配额,如资源池配额、网络配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \ sed -i "s@http://.
62383738-e52a-450a-9f84-f9e705402be8", "image" : { "arch" : "X86", "image_id" : "c90fb553-2cdb-4b81-b56a-ef68812c6cf7", "name" : "Ubuntu18.04
分层时,先构建不常变化的层,例如:先OS,再cuda驱动,再Python,再pytorch,再其他依赖包。 如果训练数据和代码经常变动,则不建议把数据、代码放到容器镜像里,避免频繁地构建容器镜像。 容器已经能满足隔离需求,不建议在容器内再创建多个conda env。
import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22" 针对原因2,需要在代码中设置环境变量NCCL_SOCKET_IFNAME
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。 图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
xxx.xxx.xxx.xxx:/ 示例:基于自定义镜像创建训练作业 指定命令行options参数提交训练作业 ma-cli ma-job submit --image-url atelier/pytorch_1_8:pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu
PyTorch+CPU/GPU) 从0制作自定义镜像用于创建训练作业(MPI+CPU/GPU) 从0制作自定义镜像用于创建训练作业(Tensorflow+GPU) 从0制作自定义镜像用于创建训练作业(MindSpore+Ascend) 训练框架的自定义镜像约束 推荐自定义镜像使用ubuntu
使用从容器镜像中选择创建模型时,在构建镜像环节,需要采用业界公开的可信基础镜像,例如来自OpenEuler,Ubuntu等的发布镜像,镜像运行用户需要创建非root普通用户,不能采用root用户直接运行。