检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据。具体过程请参考创建OBS桶,例如桶名:standard-llama2-13b。 由于ModelArts创建训练作业时,需要将作业日志输出至OBS桶中,因此创建OBS桶为必选项。用户可通过OBS Browser+、obsutil等工具访问和管理OBS桶,将代码、模型文件、数据集等数据上传或下载进行备份。
容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。
容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。
rc3 PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过ECS中构建新镜像的方式来部署训练环境。可以在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。在构建镜像的过程中会下载完
rc3 PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过ECS中构建新镜像的方式来部署训练环境。可以在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。在构建镜像的过程中会下载完
profile、dynamic_profile等多种采集方式。任意torch_npu版本均支持torch_npu.profiler.profile方式,而其他采集方式则要求特定版本的torch_npu(2024年0630之后版本)。推荐升级torch_npu后使用dynamic_profile方式进行采集,如果升级成本过高,也可以使用torch_npu
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.911)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 mc2融合算子报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
MP四种格式的图片。 请注意,针对自动学习功能中的添加图片,其图片大小限制不同,要求上传的图片大小不超过5MB。 解决方案: 方法1:使用导入功能。将图片上传至OBS任意目录,通过“从OBS目录导入”方式导入到已有数据集。 方法2:使用同步数据源功能。将图片上传到数据集输入目录下
object 数据实际输入信息,异构作业只支持OBS。 表28 remote 参数 参数类型 描述 obs obs object 数据输入输出信息为OBS方式。 表29 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。如:“/usr/data/”。
String API编号。 api_method String 请求方式包含GET、POST、PUT、DELETE、HEAD、PATCH、OPTIONS、ANY,固定返回ANY。 api_name String API名称。 api_remark String API描述。字符长度不超过255。
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 本文档适用于OBS+SFS Turbo的数据存储方案,不适用于仅OBS存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。
访问在线服务支持的访问通道 通过公网访问通道的方式访问在线服务 通过VPC访问通道的方式访问在线服务 通过VPC高速访问通道的方式访问在线服务 父主题: 将模型部署为实时推理作业
不可与data_url同时出现。 type 否 String 数据集类型。可选值有“obs”、“dataset”。obs与dataset不可同时出现。 data_url 否 String OBS的桶路径,不可与dataset_id/dataset_version同时出现。 表4 parameter属性列表
rts数据集或者OBS目录中的文件创建训练作业。如果选择通过OBS目录的方式创建训练作业,用户需要将数据集中准备好的数据导出到OBS中。 导出数据到OBS 在数据集详情页面中,选中需要导出的数据或筛选出需要导出的数据,然后单击右上角“导出”。 导出方式选择“OBS”,填写相关信息,然后单击“确定”,开始执行导出操作。
“确定”。 添加缺失的权限(子用户) 如果您的权限不足,MaaS控制台会出现“访问受限”对话框。请按照以下步骤创建自定义策略、为用户组添加自定义策略、查看缺失的服务权限并联系管理员进行配置。 图3 访问授权对话框 缺失权限的说明请参见表1。更多信息,请参见授权项。 表1 缺失权限说明
数据。具体过程请参考创建OBS桶,例如桶名:standard-llama2-13b。 由于ModelArts创建训练作业时,需要将作业日志输出至OBS桶中,因此创建OBS桶为必选项。用户可通过OBS Browser+、obsutil等工具访问和管理OBS桶,将代码、模型文件、数据集等数据上传或下载进行备份。
用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像、Notebook中构建新镜像的方式(三选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包
PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像的方式(可二选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖
PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像的方式(可二选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖