检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询训练作业版本详情 功能介绍 根据作业ID查看指定的训练作业详情。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。
qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制
qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。需要将${container_name}替换为实际的容器名称。启动容器默认使用ma-user用户。
如果使用了量化功能,则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址,还需要有Tokenizer原始文件。 --max-num-seqs:最大同时处理的请求数,超过后在等待池等候处理。
True表示关闭重计算功能。 include_tokens_per_second include_num_input_tokens_seen true 用于在训练过程中包含每秒处理的tokens和已经看到的输入tokens,方便计算性能。
qwen2-72B、llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制
True表示关闭重计算功能。 include_tokens_per_second include_num_input_tokens_seen true 用于在训练过程中包含每秒处理的tokens和已经看到的输入tokens,方便计算性能。
创建训练作业 功能介绍 创建一个训练作业。 该接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs 参数说明如表1所示。
获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。
True表示关闭重计算功能。 include_tokens_per_second include_num_input_tokens_seen true 用于在训练过程中包含每秒处理的tokens和已经看到的输入tokens,方便计算性能。
如果使用了量化功能,则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址,还需要有Tokenizer原始文件。 --max-num-seqs:最大同时处理的请求数,超过后在等待池等候处理。
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 获取代码并上传 上传推理代码AscendCloud-CV-6.3.910-xxx.zip到宿主机的工作目录中,包获取路径请参见表2。
output_dir="/path/to/my/models/cogvideox-sft # 模型输出路径 修改后,执行train_text_to_video_sft.sh脚本 bash train_text_to_video_sft.sh 以上微调文档提示来自官方文档,有关可用微调脚本参数及其功能的全面文档
获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。
在创建Notebook时,默认会开启自动停止功能,在指定时间内停止运行Notebook,避免资源浪费。 只有处于“运行中”状态的Notebook,才可以执行打开、停止操作。 一个账户最多创建10个Notebook。 操作步骤如下: 注册镜像。
断点续训:训练过程中保存的某个权重,可详见断点续训和故障快恢说明 train_auto_resume false 【可选】是否开启【故障快恢】功能,【true、false】默认false不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。
True表示关闭重计算功能。 include_tokens_per_second include_num_input_tokens_seen true 用于在训练过程中包含每秒处理的tokens和已经看到的输入tokens,方便计算性能。
获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。
图1 打开Notebook实例 通过功能,上传Dockerfile文件和模型包文件到Notebook中,默认工作目录/home/ma-user/work/。 Dockerfile文件的具体内容请参见附录1:Dockerfile模板。