检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
导入模型提示模型或镜像大小超过限制 问题现象 在导入模型时,提示模型或镜像大小超过限制。 原因分析 如果使用的是OBS导入或者训练导入,则是基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和超过了限制。 如果使用的是自定义镜像导入,则是解压后镜像和镜像下载文件的大小总和超过了限制。
方式一:在Notebook实例创建页面,镜像类型选择“自定义镜像”,名称选择上述保存的镜像。 图3 创建基于自定义镜像的Notebook实例 方式二:在“镜像管理”页面,单击某个镜像的镜像详情,在镜像详情页,单击“创建Notebook”,也会跳转到基于该自定义镜像创建Notebook的页面。 镜像保存时,哪些目录的数据可以被保存
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
将上传到SWR上的镜像注册到ModelArts的镜像管理中。 登录ModelArts管理控制台,在左侧导航栏中选择“镜像管理 ”,单击“注册镜像”,根据界面提示注册镜像。注册后的镜像可以用于创建Notebook。 在Notebook中使用自定义镜像创建Notebook并调试,调试成功后,保存镜像。
用户创建模型时构建镜像或导入文件失败 问题现象 用户创建模型时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建模型时,事件提示:复制模型文件失败,请检查OBS权限是否正常(Failed
使用自定义镜像创建训练作业时,需要您熟悉docker软件的使用,并具备一定的开发经验。详细步骤如下所示: 前提条件 Step1 创建OBS桶和文件夹 Step2 准备脚本文件并上传至OBS中 Step3 准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
0_linux-aarch64.run并下载。 企业用户:下载地址。 运营商用户:下载地址。 下载torch-2.1.0-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl文件:请单击下载地址下载。 下载torch_npu-2.1
选择“镜像管理”,进入镜像管理页面。 单击“注册镜像”,镜像源即为步骤1中推送到SWR中的镜像。请将完整的SWR地址复制到这里即可,或单击可直接从SWR选择自有镜像进行注册。 “架构”和“类型”根据实际情况选择,与镜像源保持一致。 注册镜像时,“架构”和“类型”需要和镜像源保持一
在Notebook中构建一个新镜像中创建的Notebook。 在Notebook对应操作列,单击“更多 > 变更镜像”,打开“变更镜像”弹出框,变更镜像选择“自定义镜像”,将当前镜像变更为Step2 构建成功的镜像注册到镜像管理模块注册的镜像,如图7所示。 图7 变更镜像 启动变更后的Not
lic镜像,而这个镜像又被镜像所有者删除,导致不可使用,用户需要联系对应的SWR镜像负责人,确认镜像是否存在。 该镜像不属于该租户(包括主账号和子账号),是其他人共享的public镜像,而这个镜像又被镜像所有者设置成private,导致不可使用,用户需要联系对应的SWR镜像负责人,确认镜像的属性。
ModelArts的自定义镜像软件版本匹配有哪些注意事项? 镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 如何保证自定义镜像能不因为超过35G而保存失败? 如何减小本地或ECS构建镜像的目的镜像的大小? 镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗?
ECS获取基础镜像 Step1 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图1
图1 训练作业的自定义镜像制作流程 场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。 具体案例参考使用预置镜像制作自定义镜像用于训练模型。 场景二:已有本地镜像满足代码依赖的要求,但是不满足ModelArts训练平台约束,需要适配。
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
上传数据至OBS(首次使用时需要) 前提条件 已经在OBS上创建好普通OBS桶,请参见创建普通OBS桶。 已经安装obsutil,请参考下载和安装obsutil。 参考线下容器镜像构建及调试章节,构建容器镜像并调试,镜像构建及调试与单机单卡相同。 上传镜像,参考单机单卡训练的上传镜像章节操作。
ModelArts预置镜像更新说明 本章节提供了ModelArts预置镜像的变更说明 ,比如依赖包的变化,方便用户感知镜像能力的差异,减少镜像使用问题。 统一镜像更新说明 表1 统一镜像更新说明 镜像名称 更新时间 更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3
Step6 修改并上传镜像 1. 登录指令输入之后,使用下列示例命令: docker tag {image_url} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组
Step6 修改并上传镜像 1. 登录指令输入之后,使用下列示例命令: docker tag {image_url} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组