检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
制作自定义镜像用于训练模型 训练作业的自定义镜像制作流程 使用预置镜像制作自定义镜像用于训练模型 已有镜像迁移至ModelArts用于训练模型 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU)
在文件列表的所有文件读写操作都是基于所选择的OBS路径下的内容操作的,跟当前实例空间没有关系。如果用户需要将内容同步到实例空间,需使用JupyterLab上传下载功能。
制作自定义镜像用于推理 模型的自定义镜像制作流程 在Notebook中通过镜像保存功能制作自定义镜像用于推理 在Notebook中通过Dockerfile从0制作自定义镜像用于推理 在ECS中通过Dockerfile从0制作自定义镜像用于推理 父主题: 制作自定义镜像用于ModelArts
从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。 准备工作 准备一套可以连接外部网络,装有Linux
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码
制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法 在ECS上构建自定义镜像并在Notebook中使用 在Notebook中通过Dockerfile从0制作自定义镜像 在Notebook中通过镜像保存功能制作自定义镜像 父主题: 制作自定义镜像用于ModelArts
问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。 单击“操作记录”中失败状态的报错信息。
创建ModelArts自定义策略 如果系统预置的ModelArts权限不满足您的授权要求,或者您需要管理用户操作OBS的操作权限,可以创建自定义策略。更多关于创建自定义策略操作和参数说明请参见创建自定义策略。
其他算法操作步骤类似,可参考“ResNet_v1_50”算法操作。
确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。 文件型数据从OBS目录导入操作 不同类型的数据集,导入操作界面的示意图存在区别,请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。
创建ModelArts自定义策略 如果系统预置的ModelArts权限不满足您的授权要求,或者您需要管理用户操作OBS的操作权限,可以创建自定义策略。更多关于创建自定义策略操作和参数说明请参见创建自定义策略。
单击在线服务列表“操作”列的“更多>删除”删除服务。 勾选在线服务列表中的服务,然后单击列表左上角“删除”按钮,批量删除服务。 单击目标服务名称,进入服务详情页面,单击右上角“删除”删除服务。 删除操作无法恢复,请谨慎操作。 没有委托授权时,无法删除服务。
管理Lite Cluster节点:节点是容器集群组成的基本元素,您可以对资源池内单节点进行替换、删除、重置等操作,也可以批量对节点进行删除、退订、续费等操作。
以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。
操作步骤 上传数据至OBS。具体操作请参见上传文件至OBS桶。 或者在本地VS Code的Terminal中使用ModelArts SDK完成数据上传至OBS。首先在本地VS Code中单击上方菜单栏的“Terminal”。
挂载后应用层可以在容器中正常操作OBS对象。 动态挂载适用于哪些使用场景 场景1:数据集预览和操作,将承载数据集的OBS挂载至Notebook中,可以像本地文件系统一样操作数据集。 场景2:在Notebook中训练时,可直接使用挂载至Notebook容器中的数据集。
操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“gpuMemUsage”、“gpuUtil”、“memUsage”“npuMemUsage”、“npuUtil”、可以添加或取消对应参数的使用情况图。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码