不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gradient_accumulation_steps
CCE AI套件(Ascend NPU)版本发布记录 CCE会定期发布CCE AI套件(Ascend NPU)插件新版本,进行特性更新、性能优化和BUG修复,以提升用户体验和系统稳定性。
训练脚本说明 yaml配置文件参数配置说明 各个模型深度学习训练加速框架的选择 模型NPU卡数取值表 各个模型训练前文件替换 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.907)
不满足以上场景,则不能实现NPU_Flash_Attn功能。 父主题: 训练脚本说明
不满足以上场景,则不能实现NPU_Flash_Attn功能。 父主题: 训练脚本说明
不满足以上场景,则不能实现NPU_Flash_Attn功能。 父主题: 训练脚本说明
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
根据GPU/NPU卡信息定位使用该卡的Pod 在CCE中使用GPU/NPU卡时,无法直接获取到使用该卡的Pod。您可以根据GPU/NPU卡的信息,通过kubectl命令行操作筛选Pod,以便在GPU/NPU卡故障时能够及时将Pod驱逐。
资源和成本规划 该解决方案主要部署如下资源,以下费用仅供参考,具体请参考华为云官网价格详情,实际收费以账单为准。 表1 成本预估 华为云服务 配置示例 每月预估花费 弹性云服务器 ECS 区域:西南-贵阳一 按需计费:0.31元/小时 规格:鲲鹏通用计算增强型 kc1 | 2核 |
本文档主要介绍如何在ModelArts Standard上,利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,完成SDXL LoRA训练。
快速卸载 手动卸载 删除制作镜像资源栈时需手动删除swr组织下的镜像,请按以下步骤操作,完成后方可执行一键卸载步骤。 访问容器镜像服务我的镜像管理页面,按下图所示,选择镜像名称,单击批量删除,在弹出的删除镜像确认框中输入DELETE,单击确定。 图1 SWR组织管理 一键卸载 登录资源编排
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
因此,PyTorch NPU的plog日志是按worker存储的,而不是按rank id存储的(这是区别于MindSpore的)。目前,PyTorch NPU并不依赖rank table file。 #!
准备工作 当您使用租户账号登录华为云时,则无需执行该准备工作;如果您使用的是IAM用户账户,请确认您是否在admin用户组中,如果您不在admin组中,则需要为您的账号授予相关权限,并完成以下准备工作。 创建rf_admin_trust委托(可选) 进入华为云官网,打开控制台管理界面
替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
您即将访问非华为云网站,请注意账号财产安全