检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。
train_instance_type 是 String 训练作业选择的资源规格,请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。
删除训练作业参数 功能介绍 删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。
train_url 否 String 训练作业的输出文件OBS路径URL,默认为空,如“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/train/”。
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: Qwen系列模型基于Lite Server适配PyTorch NPU训练指导(6.3.904)
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。
训练评测 工具介绍及准备工作 训练性能测试 训练精度测试 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.5.901)
TRAIN_ITERS 300 必填。表示训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。 在AscendSpeed代码目录下执行断点续训练脚本。
本文档提供的调测代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,只需要修改个别的参数即可。 DataParallel进行单机多卡训练的优缺点 代码简单:仅需修改一行代码。
查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果 LLaMAFactory_train_accuracy_benchmark_<版本号>_<时间戳>.xlsx 样例截图: 父主题: 训练benchmark工具
查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果 LLaMAFactory_train_accuracy_benchmark_<版本号>_<时间戳>.xlsx 样例截图: 父主题: 训练benchmark工具
job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。
最小值:1 pool_id String 训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。 表43 flavor_detail 参数 参数类型 描述 flavor_type String 资源规格的类型。
表2 get_job_log请求参数说明 参数 是否必选 参数类型 描述 task_id 否 String 要查看哪个工作节点的日志,默认值为"worker-0";如果在创建训练作业时参数train_instance_count选择了2,则可选值为"worker-0","worker
train_url 是 String 训练作业的输出文件OBS路径URL,默认为空,如:“/bucket/trainUrl/”。 log_url 否 String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/train/”。
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。
Step3 LoRA微调超参配置 本章节介绍LoRA微调训练前的超参配置,可以根据实际需要修改。 LoRA微调训练脚本baichuan2.sh,存放在llm_train/AscendSpeed/script/baichuan2/目录下。训练前,可以根据实际需要配置超参配置。
TRAIN_ITERS 300 训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。
cd /home/ma-user/diffusers sh diffusers_controlnet_train.sh Step3 启动sdxl训练服务 使用ma-user用户执行如下命令运行训练脚本。