检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像保存功能制作。具体案例参考在Notebook中通过镜像保存功能制作自定义镜像用于推理。 图1 模型的自定义镜像制作场景一 场景二: 预置镜像既不满足软件环境要求,同时需要放入模型包,在Notebook中通过Dockerfile制作。具体案例参考在Notebook中通过Dock
来发送告警通知。更多详情请参考AOM用户指南。 根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”。 图6 新建告警行动规则 在之前打开的“创建告警规则”页面的告警通知区域,“行动规则”选择新创建的告警行动规则,单击“立即创建”。
息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 npu-smi info -t board -i
|——megatron/ # 注意:该文件夹从Megatron-LM中复制得到 |——... 您可以在Notebook中导入完代码之后,在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包,然后使用保存镜像功能。后
单击左上方“创建资产”,选择“AI应用”。 在“创建AI应用”页面配置参数。 表1 创建AI应用 参数 是否必填 说明 AI应用英文名称 是 自定义一个易于分辨的AI应用英文名称。 只能以数字、大小字母、下划线组成,且字符长度在3到90之间。 中文名称 是 自定义一个易于分辨的AI应用中文名称。 字符长度在1到30之间。
r/work/下。 ownership String 资源所属,枚举值如下: MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。
托管数据集到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库(简称AI Gallery仓库)里面。每一个数据集实例视作一个资产仓库,数据集实例与资产仓库之间是一一对应的关系。例如,模型名称为“Test”,则AI Gallery仓
其说明。 数据特征分析 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 选择对应的数据集,单击操作列的“更多 > 数据特征”,进入数据集概览页的数据特征页面。 您也可以在单击数据集名称进入数据集概览页后,单击“数据特征”页签进入。
r/work/下。 ownership String 资源所属,枚举值如下: MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。
r/work/下。 ownership String 资源所属,枚举值如下: MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。
r/work/下。 ownership String 资源所属,枚举值如下: MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。
其他文件,拖拽至目录对应的文件夹内即完成本地代码上传至云端。 在VS Code中打开要执行的代码文件,在执行代码之前需要选择合适的Python版本路径,单击下方默认的Python版本路径,此时在上方会出现该远程环境上所有的python版本,选择自己需要的版本即可。 图14 选择Python版本
触发容错环境检测达到的效果 环境预检查通过后,如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑,使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。 开启容错检查 用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。 使用ModelArts
否 String 存储卷的名称。 mount_path 是 String 存储卷在容器中的挂载路径。如:/tmp。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。
updateStrategy 否 String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 响应参数 状态码: 200 表10 响应Body参数 参数 参数类型 描述 apiVersion
打印如下信息,表示构建镜像成功。 图5 成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图6 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列
打印如下信息,表示构建镜像成功。 图5 成功构建镜像 Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图6 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列
torchvision_npu-0.16.*.whl Step6 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图4 复制登录指令 Step7 上传镜像 在ECS服务器中输入登录指令后,使用下列
updateStrategy 否 String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 响应参数 状态码: 200 表12 响应Body参数 参数 参数类型 描述 apiVersion
r/work/下。 ownership String 资源所属,枚举值如下: MANAGED:托管,即资源在服务上。 DEDICATED:非托管,即资源在用户账号上,只有在category为EFS时支持。 status String EVS扩容状态,扩容时的状态为RESIZING,此时实例可以正常使用。