检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
自定义镜像规范 AI Gallery支持托管自定义镜像,但是托管的自定义镜像要满足规范才支持使用AI Gallery工具链服务(微调大师、在线推理服务)。 自定义镜像的使用流程 托管自定义镜像,操作步骤请参考托管模型到AI Gallery。 如果自定义镜像要支持训练,则需要满足自定义镜像规范(训练)。
调试 将上传到SWR上的镜像注册到ModelArts的镜像管理中。 登录ModelArts管理控制台,在左侧导航栏中选择“镜像管理 ”,单击“注册镜像”,根据界面提示注册镜像。注册后的镜像可以用于创建Notebook。 在Notebook中使用自定义镜像创建Notebook并调试,调试成功后,保存镜像。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
ux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18.04的镜像。 Step5 制作自定义镜像 目标:构建安装好如下软件的容器镜像,并使用ModelArts训练服务运行。 ubuntu-18.04 cuda-11.1 python-3
0-cann7.0.0 完成镜像上传后,在容器镜像服务控制台的“我的镜像”页面可查看已上传的自定义镜像。 “swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:2.1.0-cann7.0.0”即为此自定义镜像的“SWR_URL”。
镜像所创建的Notebook已经无法再执行镜像保存的操作了。 解决方法 使用公共镜像或其他的自定义镜像来创建Notebook,完成镜像保存操作。 父主题: 自定义镜像故障
ModelArts支持的预置镜像列表 ModelArts预置镜像更新说明 ModelArts统一镜像列表 Notebook专属预置镜像列表 训练专属预置镜像列表 推理专属预置镜像列表 父主题: 制作自定义镜像用于ModelArts Standard
制作自定义镜像用于训练模型 训练作业的自定义镜像制作流程 使用预置镜像制作自定义镜像用于训练模型 已有镜像迁移至ModelArts用于训练模型 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU)
制作自定义镜像用于推理 模型的自定义镜像制作流程 在Notebook中通过镜像保存功能制作自定义镜像用于推理 在Notebook中通过Dockerfile从0制作自定义镜像用于推理 在ECS中通过Dockerfile从0制作自定义镜像用于推理 父主题: 制作自定义镜像用于ModelArts
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
4096 Apr 30 15:17 vae-fp16-fix Step3 构建镜像 基于官方提供的基础镜像构建自定义镜像diffusers-train:0.0.1。参考如下命令编写Dockerfile文件。镜像地址{image_url}请参见表2。 FROM {image_url}
Apr 30 15:17 sdxl-vae-fp16-fix Step3 构建镜像 基于官方提供的基础镜像构建自定义镜像koyha_ss-train:0.0.1。参考如下命令编写Dockerfile文件。镜像地址{image_url}请参见表2。 FROM {image_url} COPY
7-ubuntu_1804-x86_64 构建自定义训练镜像 当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。镜像制作流程如图1所示。 图1 训练作业的自定义镜像制作流程 场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。
镜像”下,选择未发布的镜像,单击镜像名称,进入镜像详情页。 在镜像详情页,单击右侧“发布”,在发布镜像页面编辑发布信息后,单击“发布”。 表1 发布镜像的参数说明 参数名称 说明 中文名称 镜像发布后显示的名称,在创建镜像时设置的名称,此处不可编辑。 描述 必填项,填写资产简介,镜像发布后将显示在镜像页签上,方便用户快速了解资产。
图1 配置管理 在镜像预热中单击编辑图标,填写镜像预热信息。 表1 镜像预热参数 参数名称 说明 镜像来源 可选择“预置”或“自定义”的镜像。 预置:可选择SWR服务上自有的或他人共享的镜像。 自定义:可直接填写镜像地址。 添加镜像密钥 若本租户不具有预热镜像的权限(即非公开/非
running. 可能原因 镜像过大Push任务一直在运行,或实例节点有问题。 解决方法 以对应租户的华为云账号登录SWR服务,查看镜像是否已经Push成功。 如果Push成功,请重新注册镜像。 如果未Push成功,联系SRE查看对应实例的节点是否有问题。 父主题: 自定义镜像故障
生的容器镜像中、“/cache”目录下存储的是临时文件,不占用容器空间。 如果没有文件可以删除,或者不清楚哪些可以删除,那么可以使用相同的镜像重新创建一个Notebook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小