检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。
图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况
处理方法 检查summary目录是否存在其他文件,如有请删除。 检查summary目的文件是否过大(比如大于5GB),如果有请减小summary。 父主题: OBS操作相关故障
准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。
“训练集比例”即用于训练模型的样本数据比例;“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。 父主题: Standard数据准备
但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。
异常 模型文件xxx大于5G,无法导入。 Model file %s is larger than 5G and cannot be imported. 模型文件xxx大于5G,请精简模型文件后重试,或者使用动态加载功能进行导入。
创建Workflow数据集版本发布节点 功能介绍 通过对ModelArts数据集能力进行封装,实现数据集的版本自动发布的功能。数据集版本发布节点主要用于将已存在的数据集或者标注任务进行版本发布,每个版本相当于数据的一个快照,可用于后续的数据溯源。
每次数据采样时,保持一致。 SAVE_INTERVAL 10 表示训练间隔多少step,则会保存一次权重文件。 模型参数设置规定 TP张量并行 、PP流水线并行、CP context并行的参数设置:TP×PP×CP的值要被NPU数量(word_size)整除。
父主题: Standard数据准备
准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。
创建Workflow数据集标注节点 功能介绍 通过对ModelArts数据集能力进行封装,实现数据集的标注功能。数据集标注节点主要用于创建标注任务或对已有的标注任务进行卡点标注,主要用于需要对数据进行人工标注的场景。
图2 打开开发环境 单击图中的MindSpore,即可创建一个ipynb文件,导入mindspore,可以看到安装的mindspore 1.8.1已经能够使用。 图3 创建一个ipynb文件 再打开一个terminal,查看cann的版本,是Dockerfile中安装的版本。
表1 路径相关环境变量 变量名 说明 示例 PATH 可执行文件路径,已包含常用的可执行文件路径。
步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境 保存并共享虚拟环境 前提条件 创建一个Notebook,“资源类型”选择“专属资源池”,“存储配置”选择“SFS弹性文件服务器”,打开terminal。
使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。