检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。
alpaca_en_demo 指定用于训练的数据集,数据集都放置在此处为identity,alpaca_en_demo表示使用了两个数据集,一个是 identity,一个是alpaca_en_demo。如选用定义数据请参考准备数据(可选) template qwen 必须修改。用于指定模板。如果设
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
zip并解压,无需重复执行。 进入benchmark_tools目录下,运行静态benchmark验证。 cd benchmark_tools 语言模型脚本相对路径是tools/llm_evaluation/benchmark_tools/benchmark_parallel.py,具体操作命令如下,可以根据参数说明修改参数。
examples/deepspeed/ds_z3_config.json 可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库,用于加速深度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage
examples/deepspeed/ds_z3_config.json 可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库,用于加速深度学习训练。通过使用DeepSpeed,可以实现如混合精度训练、ZeRO内存优化等高级特性,以提高训练效率和性能 stage
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}
DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSpeed的核心思想是在单个GPU上实现大规模模型并行训练,从而提高训练速度。DeepSpeed提供了一系列的优化技
以llama2-13b为例,NPU卡显存为32GB时,至少需要2张卡运行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。 测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
ame/obs_file.txt', '/home/ma-user/work/obs_file.txt') 如果下载到Notebook中的是zip文件,在Terminal中执行下列命令,解压压缩包。 unzip xxx.zip #在xxx.zip压缩包所在路径直接解压 代码执行
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 模型参数量 训练类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed)
1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时,需要修改。 EPOCH 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数,根据实际需要修改。
N1, S1, D],其中N1≤ 2048,D≤ 512并且dim== 4。 对于GQA,key的shape是 [B, N2, S2, D],其中 N2 ≤ 2048,并且N1是N2的正整数倍。 不满足以上场景,则不能实现NPU_Flash_Attn功能。 父主题: 训练脚本说明