华为云首页用户手册

AI开发平台ModelArts-NPU_Flash_Attn融合算子约束

AI开发平台ModelArts-NPU_Flash_Attn融合算子约束

时间：2025-02-12 15:14:12

AI开发平台ModelArts

NPU_Flash_Attn融合算子约束

query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。
attn_mask 只支持布尔（bool）数据类型，或者为None。
query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。
对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。

不满足以上场景，则不能实现NPU_Flash_Attn功能。

父主题： 训练脚本说明

上一篇：AI开发平台ModelArts-训练中的权重转换说明:用户自定义执行权重转换参数修改说明

下一篇：AI开发平台ModelArts-训练中的权重转换说明:HuggingFace转Megatron参数说明

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台ModelArts-NPU_Flash_Attn融合算子约束

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题