检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表2 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096
不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表2 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096
_sft_70b.sh xx.xx.xx.xx 4 3 方法二:定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh
JobInput objects 节点的输入项。 outputs 否 Array of JobOutput objects 节点的输出项。 step_uuid 否 String 节点的UUID,唯一性标识。 properties 否 Map<String,Object> 节点的属性。 events
Cluster资源池 管理Lite Cluster节点池 管理Lite Cluster节点 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动 管理Lite Cluster资源池的游离节点 监控Lite Cluster资源
xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_pretrain_70b
xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_pretrain_70b
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_sft_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_sft_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
构建Workflow多分支运行场景 Workflow多分支运行介绍 构建条件节点控制分支执行 配置节点参数控制分支执行 配置多分支节点数据 父主题: 开发Workflow命令参考
Cluster资源池,可设置容器引擎空间大小应用于新增的节点,存量节点不支持修改容器引擎空间大小,且会导致资源池内该规格下节点的dockerBaseSize不一致,可能会使得部分任务在不同节点的运行情况不一致。 Lite Cluster资源池状态处于“运行中”,且资源池中的节点需要含有GPU/Ascend资源时,才可以升级Lite
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
xx 4 2 # 第四台节点 sh scripts/llama2/0_pl_sft_70b.sh xx.xx.xx.xx 4 3 定义变量形式:提前定义主节点IP地址、节点个数、节点RANK的环境变量并赋值,再执行脚本。 示例: # 第一台节点 MASTER_ADDR=xx
JobInput objects 节点的输入项。 outputs Array of JobOutput objects 节点的输出项。 step_uuid String 节点的UUID,唯一性标识。 properties Map<String,Object> 节点的属性。 events Array
objects 节点的输入项。 outputs 否 Array of JobOutput objects 节点的输出项。 created_at 否 String 节点的创建时间。 title 否 String 工作流节点标题。 description 否 String 节点的描述信息。
单击右上方“启动”并在弹框中单击“确认”后开始运行工作流。 工作流在运行过程中,需要用户在“数据标注”节点以及“服务部署”节点完成相关操作或者配置,其余节点不需要用户做操作。 数据标注节点:标注节点启动后会等待用户确认数据标注是否完成,用户在数据标注节点单击“实例详情”前往数据集页面查看该数据集是否已完成标注。 未完
序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gradient_accumulation_steps: 16 ZeRO-3 1*节点 & 8*Ascend lora gradient_accumulation_steps: