检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
# ModelLink端到端的大语言模型方案 |——megatron/ # 注意:该文件夹从Megatron-LM中复制得到 |——... 父主题: 准备工作
点IP,一般选rank0为主master。 --num_nodes <nodes>:训练节点总个数 --rank <rank>:节点ID,从0开始,一般选rank0为主master。 --超参<key>:参数key可参考Yaml配置文件参数配置说明 训练完成后,test-benc
点IP,一般选rank0为主master。 --num_nodes <nodes>:训练节点总个数 --rank <rank>:节点ID,从0开始,一般选rank0为主master。 --超参<key>:参数key可参考Yaml配置文件参数配置说明 训练完成后,test-benc
0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240606190017-b881580 从SWR拉取。 约束限制 请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 本方案使用需要用户具备k8s集群相关技能。
0-cann_8.0.rc1-py_3.9-hce_2.0.2312-aarch64-snt9b-20240516142953-ca51f42 从SWR拉取。 获取软件 本教程使用的是Open-clip源码包。 昇腾适配过程通过修改训练脚本方式实现,不涉及其他软件获取。 Step1 准备环境
服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程。用户授权ModelAr
2409-aarch64-snt9b-20241213131522-aafe527 cann_8.0.rc3 pytorch_2.1.0 驱动23.0.6 从SWR拉取 不同软件版本对应的基础镜像地址不同,请严格按照软件版本和镜像配套关系获取基础镜像。 步骤一:检查环境 请参考Lite Serve
创建”,开始创建AI应用。 图2 创建AI应用 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
train_auto_resume false 【可选】是否开启【故障快恢】功能,【true、false】默认false不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。详见断点续训和故障快恢说明 handler-name GeneralPretrainHandler GeneralInstructionHandler
服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程。用户授权ModelAr
该工作空间下将被一起删除的资源,确认无误后,输入“DELETE”,单击“确定”,工作空间的状态变为“删除中”,待资源清理完成,该工作空间会从列表删除。 父主题: ModelArts Standard准备工作
型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练,加载中断生成的checkpoint,中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定
# ModelLink端到端的大语言模型方案 |——megatron/ # 注意:该文件夹从Megatron-LM中复制得到 |——... 如果git下载代码时报错,请参见Git下载代码时报错解决。 父主题: 准备工作
型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint继续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置继续训练,加载中断生成的checkpoint,中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定
型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint继续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置继续训练,加载中断生成的checkpoint,中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定
型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint继续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置继续训练,加载中断生成的checkpoint,中间不需要改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注
型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint继续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置继续训练,加载中断生成的checkpoint,中间不需要改动任何参数。 如果要使用自动重启功能,资源规格必须选择八卡规格。 注
NNODES 1 多机必填,单机忽略;节点总数,单机写1,双机写2。 NODE_RANK 0 多机必填,单机忽略;节点序号,当前节点ID,一般从0开始,单机默认是0。 WORK_DIR /home/ma-user/ws 非必填。容器的工作目录。训练的权重文件保存在此路径下。默认值为:/home/ma-user/ws。
of WorkflowParameter objects Workflow包含的参数。 source_workflow_id String 从指定Workflow工作流进行复制。通过复制来创建Workflow时必填。 gallery_subscription WorkflowGallerySubscription
0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b 从SWR拉取。 约束限制 本文档适配昇腾云ModelArts 6.3.910版本,请参考表2获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。