检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用docker push命令上传镜像。 sudo docker push swr.example.com/deep-learning/tf-1.13.2:latest 图2 上传镜像 完成镜像上传后,在“容器镜像服务控制台>我的镜像”页面可查看已上传的自定义镜像。 “swr.example
ModelArts统一镜像列表 统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像,包括MindSpore、PyTorch。适用于开发环境,模型训练,服务部署,请参考统一镜像列表。 表1 MindSpore 预置镜像 适配芯片 适用范围 mindspore_2
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
上传数据至OBS(首次使用时需要) 前提条件 已经在OBS上创建好普通OBS桶,请参见创建普通OBS桶。 已经安装obsutil,请参考下载和安装obsutil。 参考线下容器镜像构建及调试章节,构建容器镜像并调试,镜像构建及调试与单机单卡相同。 上传镜像,参考单机单卡训练的上传镜像章节操作。
如何通过docker镜像启动容器? Notebook保存后的镜像有Entrypoint参数,如图1。Entrypoint参数中指定的可执行文件或命令会覆盖镜像的默认启动命令,Entrypoint中指定的执行命令内容不在镜像中预置,在本地环境通过docker run启动通过Note
镜像列表、训练专属预置镜像列表、推理专属预置镜像列表。 自定义镜像:用户参照ModelArts镜像规范制作的镜像。 基础镜像:镜像制作的一个基本概念,先有基础镜像然后在此基础上做镜像。基础镜像可以是ModelArts预置镜像、第三方镜像。 自定义镜像功能关联服务介绍 容器镜像服务
训练专属预置镜像列表 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您可以基于这些基础镜像制作一个新的镜像并进行训练。 训练基础镜像列表
swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility
1”为构建的新镜像的SWR路径。“XXX”为鉴权时指定的profile。 注册新镜像 构建完成后,将新镜像注册到ModelArts镜像管理服务中,进而能够在ModelArts中使用该镜像。 有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册
生的容器镜像中、“/cache”目录下存储的是临时文件,不占用容器空间。 如果没有文件可以删除,或者不清楚哪些可以删除,那么可以使用相同的镜像重新创建一个Notebook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小
Notebook自定义镜像故障基础排查 当制作的自定义镜像使用出现故障时,请用户按照如下方法排查: 用户自定义镜像没有ma-user用户及ma-group用户组; 用户自定义镜像中/home/ma-user目录,属主和用户组不是ma-user和ma-group; 用户自定义镜像必须满足用户
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
前提条件 Step1 创建OBS桶和文件夹 Step2 准备训练脚本并上传至OBS Step3 准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArt
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析