检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Notebook中构建一个新镜像中创建的Notebook。 在Notebook对应操作列,单击“更多 > 变更镜像”,打开“变更镜像”弹出框,变更镜像选择“自定义镜像”,将当前镜像变更为Step2 构建成功的镜像注册到镜像管理模块注册的镜像,如图7所示。 图7 变更镜像 启动变更后的Not
ux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18.04的镜像。 Step5 制作自定义镜像 目标:构建安装好如下软件的容器镜像,并使用ModelArts训练服务运行。 ubuntu-18.04 cuda-11.1 python-3
从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。 准备工作 准备一套可以连接外部网络,装有Linux系统并安装18
将上传到SWR上的镜像注册到ModelArts的镜像管理中。 登录ModelArts管理控制台,在左侧导航栏中选择“镜像管理 ”,单击“注册镜像”,根据界面提示注册镜像。注册后的镜像可以用于创建Notebook。 在Notebook中使用自定义镜像创建Notebook并调试,调试成功后,保存镜像。
ModelArts支持的预置镜像列表 ModelArts预置镜像更新说明 ModelArts统一镜像列表 Notebook专属预置镜像列表 训练专属预置镜像列表 推理专属预置镜像列表 父主题: 制作自定义镜像用于ModelArts Standard
图1 训练作业的自定义镜像制作流程 场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。 具体案例参考使用预置镜像制作自定义镜像用于训练模型。 场景二:已有本地镜像满足代码依赖的要求,但是不满足ModelArts训练平台约束,需要适配。
1:8080/goodbye 如果验证自定义镜像功能成功,结果如下图所示。 图3 校验接口 上传自定义镜像至SWR服务。 完成自定义镜像上传后,您可以在“容器镜像服务>我的镜像>自有镜像”列表中看到已上传镜像。 将自定义镜像创建为模型 参考从容器镜像中选择元模型导入元模型,您需要特别关注以下参数:
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
Notebook自定义镜像故障基础排查 当制作的自定义镜像使用出现故障时,请用户按照如下方法排查: 用户自定义镜像没有ma-user用户及ma-group用户组; 用户自定义镜像中/home/ma-user目录,属主和用户组不是ma-user和ma-group; 用户自定义镜像必须满足用户
4096 Apr 30 15:17 vae-fp16-fix Step3 构建镜像 基于官方提供的基础镜像构建自定义镜像diffusers-train:0.0.1。参考如下命令编写Dockerfile文件。镜像地址{image_url}请参见表2。 FROM {image_url}
Apr 30 15:17 sdxl-vae-fp16-fix Step3 构建镜像 基于官方提供的基础镜像构建自定义镜像koyha_ss-train:0.0.1。参考如下命令编写Dockerfile文件。镜像地址{image_url}请参见表2。 FROM {image_url} COPY
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析
常见问题 下线镜像对现有用户的使用是否有影响? 下线镜像对已有用户不影响,用户可以继续使用已有实例启动Notebook,但是需要注意删除实例后无法再新建实例。 镜像下线后是否可以继续基于该镜像新建实例? 镜像下线后无法使用该镜像新建实例,界面不会呈现了。 镜像下线后用户还想继续使用,怎么办?
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: