检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像(二选一)构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
文件大小规范 当使用公共资源池时,SWR的镜像大小(指下载后的镜像大小,非SWR界面显示的压缩后的镜像大小)和OBS模型包大小总和不大于30G。
图1 创建训练作业 使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendFactory; sh install.sh modellink; sh .
图1 创建训练作业 使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendFactory; sh install.sh modellink; sh .
注意业务基础镜像选择Ascend+PyTorch镜像。 配置好的容器环境如下图所示: 图1 环境配置完成 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
脚本中实现了以下步骤的自动化操作: 环境检查 拉取镜像 根据实际值更新rank_table_file.json 启动容器 进入容器启动服务 前提条件 已经完成资源购买。 请确保多机之间能够正常通信。 请确保每台机器都能访问到西南-贵阳一SWR镜像仓库。
原因分析 训练镜像的numpy版本与Notebook中不一致。
经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即: 镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时
基于PyTorch2.0镜像验证(本案例中镜像较大,拉取时间可能较长)。
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch
统一镜像中的安装包更齐全,详细信息可以参见推理基础镜像列表。 推荐将旧版镜像切换为统一镜像,旧版镜像后续将会逐渐下线。 待下线的基本镜像不再维护。
配套的基础镜像 镜像地址 获取方式 镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9
镜像管理 查询支持的镜像列表 根据指定条件分页查询满足条件的所有镜像。 注册自定义镜像 将用户自定义的镜像注册到ModelArts镜像管理。 查询用户镜像组列表 查询用户镜像信息概览,以镜像名称作为聚合的信息。 查询镜像详情 查询镜像详情。
Notebook、数据、算法、镜像、模型、Workflow 4 按排序方式搜索 在页面的排序列表选择排序方式,调整资产排序方式快速查找所需资产。 Notebook、数据、算法、镜像、模型、Workflow 5 搜索商用资产 在页面单击“商用”,筛选出所有的商业售卖资产。
配套的基础镜像 镜像地址 获取方式 配套关系镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-
当前推理基础镜像使用的python的log模块,采用的是默认的日志级别Warning,即当前只有Warning级别的日志可以默认查询出来。如果想要指定INFO等级的日志能够查询出来,需要在代码中指定logger的输出日志等级为INFO级别。
示例场景为授权子账号权限,使其能够在开发环境Notebook中使用基础镜像构建一个新的推理镜像,并完成模型的创建,部署为在线服务。