检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
镜像列表、训练专属预置镜像列表、推理专属预置镜像列表。 自定义镜像:用户参照ModelArts镜像规范制作的镜像。 基础镜像:镜像制作的一个基本概念,先有基础镜像然后在此基础上做镜像。基础镜像可以是ModelArts预置镜像、第三方镜像。 自定义镜像功能关联服务介绍 容器镜像服务
type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String 镜像可见度。枚举值如下: PRIVATE:私有镜像。 PUBLIC:
管理AI Gallery镜像 编辑镜像介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在镜像详情页,选择“镜像介绍”页签,单击右侧“编辑介绍”。 编辑镜像基础设置和镜像描述。 表1 镜像介绍的参数说明 参数名称 说明 基础设置
镜像所创建的Notebook已经无法再执行镜像保存的操作了。 解决方法 使用公共镜像或其他的自定义镜像来创建Notebook,完成镜像保存操作。 父主题: 自定义镜像故障
托管镜像到AI Gallery 创建镜像资产 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 单击左上方“创建资产”,选择“镜像”。 在“创建镜像”弹窗中配置参数,单击“创建”。 表1 创建镜像 参数名称 说明 英文名称 必填项,镜像的英文名称。
running. 可能原因 镜像过大Push任务一直在运行,或实例节点有问题。 解决方法 以对应租户的华为云账号登录SWR服务,查看镜像是否已经Push成功。 如果Push成功,请重新注册镜像。 如果未Push成功,联系SRE查看对应实例的节点是否有问题。 父主题: 自定义镜像故障
7-ubuntu_1804-x86_64 构建自定义训练镜像 当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。镜像制作流程如图1所示。 图1 训练作业的自定义镜像制作流程 场景一:预置镜像满足ModelArts训练平台约束,但不满足代码依赖的要求,需要额外安装软件包。
镜像”下,选择未发布的镜像,单击镜像名称,进入镜像详情页。 在镜像详情页,单击右侧“发布”,在发布镜像页面编辑发布信息后,单击“发布”。 表1 发布镜像的参数说明 参数名称 说明 中文名称 镜像发布后显示的名称,在创建镜像时设置的名称,此处不可编辑。 描述 必填项,填写资产简介,镜像发布后将显示在镜像页签上,方便用户快速了解资产。
使用自定义镜像创建Notebook后打开没有kernel 问题现象 使用自定义镜像创建实例启动后,打开JupyterLab>新建Notebook,选不到kernel。 原因分析 自定义镜像的python环境没有注册。 解决方案 在Terminal里执行命令排查实例存在几个Conda环境。
自定义镜像故障 Notebook自定义镜像故障基础排查 镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status
图1 配置管理 在镜像预热中单击编辑图标,填写镜像预热信息。 表1 镜像预热参数 参数名称 说明 镜像来源 可选择“预置”或“自定义”的镜像。 预置:可选择SWR服务上自有的或他人共享的镜像。 自定义:可直接填写镜像地址。 添加镜像密钥 若本租户不具有预热镜像的权限(即非公开/非
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
生的容器镜像中、“/cache”目录下存储的是临时文件,不占用容器空间。 如果没有文件可以删除,或者不清楚哪些可以删除,那么可以使用相同的镜像重新创建一个Notebook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小