检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。
train_url 否 String 训练作业的输出文件OBS路径URL,默认为空,如:“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/log/”。
qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0.txt,打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt,打印训练过程中AICORE利用率
使用订阅算法创建训练作业 AI Gallery中提供了现成的算法,供用户使用,您可以直接订阅AI Gallery中的算法,快速创建训练作业,构建模型。 父主题: 使用ModelArts Standard训练模型
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行预训练任务。
增量模型训练 什么是增量训练 增量训练(Incremental Learning)是机器学习领域中的一种训练方法,它允许人工智能(AI)模型在已经学习了一定知识的基础上,增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力,而不需要从头开始。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。
预训练 预训练数据处理 预训练超参配置 预训练任务 断点续训练 查看日志和性能 父主题: Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
常用框架指使用ModelArts训练管理中支持的常用AI引擎,当前支持的引擎列表请参见ModelArts支持的预置镜像列表。 如果您使用的AI引擎为支持列表之外的,建议使用自定义镜像的方式创建训练作业。 AI Engine 选择代码使用的AI引擎及其版本。
MODEL_NAME llama2-13b 输入选择训练的模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。
MODEL_NAME llama2-13b 输入选择训练的模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。
使用VS Code创建并调试训练作业 由于AI开发者会使用VS Code工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境、贴近本地开发习惯地编写启动命令,ModelArts提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud,用户通过简易的操作
查询训练作业标签 获取训练作业事件列表 创建训练作业镜像保存任务 查询训练作业镜像保存任务 获取训练作业支持的公共规格 获取训练作业支持的AI预置框架
表1 必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须修改。
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
需要在训练开始前,修改llm_train/AscendFactory/yi/3_training.sh文件,并添加--tokenizer-not-use-fast参数。修改后如图1所示。
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
创建训练任务 调试代码 创建训练任务之前,建议先调试代码。
表1 训练超参配置说明 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须修改。