检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练超参数。常见的超参如下图所示: 图1 训练超参数 模型的超参通常可能调整的主要有学习率、batch size、并行切分策略、学习率warm-up、模型参数、FA配置等。用户在进行NPU精度和GPU精度比对前,需要保证两边的配置一致。 表1 超参说明 超参 说明 学习率 影响模型收敛程度,决定了模型在每次更新权
ckpoint接续训练。 当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。 原有训练参数配置表1断点续训练中新加MODEL_PAT
/v1/{project_id}/resourceflavors 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 continue 否 String 分页查询时上一页位置。
/home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps
/home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps
Long 训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。 user_name String 训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。 annotations Map<String,String> 训练作业申明模板,
Long 训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。 user_name String 训练作业创建用户的用户名,创建成功后由ModelArts生成返回,无需填写。 annotations Map<String,String> 训练作业申明模板,
Alpaca_data_gpt4_zh.jsonl #微调训练原始数据文件 上传代码到工作环境 使用root用户以SSH的方式登录DevServer。将AscendSpeed代码包AscendCloud-3rdLLM-xxx-xxx.zip上传到${
{training_job_id}/events 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。
train-00000-of-00001-a09b74b3ef9c3b56.parquet #原始数据文件 上传代码到工作环境 使用root用户以SSH的方式登录DevServer。 将AscendSpeed代码包AscendCloud-3rdLLM-xxx.zip上传到${wor
/home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps
ckpoint接续训练。 当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。 断点续训练操作过程 GLM3-6B的断点续训脚本glm3_base
GET /v1/{project_id}/events 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 resource 是 String 事
/home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps
n/目录下生成alpaca_text_document.bin和alpaca_text_document.idx文件。 自定义数据 如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例:
ls/{nodepool_name}/nodes 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String
/v2/{project_id}/pools/{pool_name}/nodes 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 表2 Query参数 参数 是否必选 参数类型
aca_text_document.bin和alpaca_text_document.idx文件。 图1 处理后的数据 自定义数据 如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例:
ckpoint接续训练。 当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,用于读取前一次训练保存的预训练模型。 断点续训练操作过程 Llama2-70B的断点续训脚本llama2
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 email 否 String 标注团队成员邮箱。