检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2
如果升级方式为安全升级,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。 如果升级方式为强制升级,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。 无业务节点定义:在资源池详情“节点”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 模型参数量 训练类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 7B lora/dpo
不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2
出现该问题的可能原因如下: 如果在此之前是有进行数据复制的,每个节点复制的速度不是同一个时间完成的,然后有的节点没有复制完,其他节点进行torch.distributed.init_process_group()导致超时。 处理方法 如果是多个节点复制不同步,并且没有barrier的话导致的超时,可以在复制数据之前,先进行torch
请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称,默认为text。在维基百科数据集中,它有四列,分别是id、url、title和text。可以指定–json-key标志来选择用于训练的列。 { 'id': '1'
如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。 如果升级方式为强制升级,则根据滚动节点数量随机选择节点,隔离节点并滚动升级。 无业务节点定义:在资源池详情“节点管理”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2
不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具(Deepspeed) 规格与节点数 llama2 llama2
据通常存储在对象存储服务(OBS)中,且训练数据较大时(如200GB以上),每次都需要使用GPU资源池进行训练,且训练效率低。 希望提升训练效率,同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。 优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载5
格、镜像等信息。 在弹性节点Server的节点列表页中,可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。 图1 查看Server节点 单击某个Server节点名称,进入到Server节点详情页,可以查看更多信息,如表1所示。
存储相关 在ModelArts中如何查看OBS目录下的所有文件?
不同机型的对应的软件配套版本 由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器
在新版自动学习页面,单击项目名称进入运行总览页面,单击“数据标注”节点的“实例详情”进入数据标注页面,完成数据标注。 图1 完成数据标注 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议
在新版自动学习页面,单击创建成功的项目名称,查看当前工作流的执行情况。 在“预测分析”节点中,待节点状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可以在预测分析节点中单击查看训练详情,如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。 该示
encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或