检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适配PyTorch NPU训练指导 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导 Llama3 Llama3-8b Llama3-70b 预训练、SFT全参微调、LoRA微调 ModelLink LlamaFactory Qwen qwen-
其中“log_dir”参数建议设置为一个新的目录,“checkpoint_path”参数设置为上一次训练结果输出路径,如果是OBS目录,路径填写时建议使用“obs://”开头。 如果标注数据中的标签发生了变化,在运行“mox.run”前先执行如果标签发生变化的操作。
当训练数据可以直接使用,无需二次处理时,可以直接将数据上传至OBS桶。在创建训练作业时,训练的输入参数位置可以直接填写OBS桶路径。 当训练数据集的数据未标注或者需要进一步的数据预处理,可以先将数据导入ModelArts数据管理模块进行数据预处理。
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导 预训练、SFT全参微调训练、LoRA微调训练 介绍主流的开源大模型Llama系列、Qwen系列、Yi系列、Baichuan
huggingface/transformers.git git clone https://github.com/NVIDIA/Megatron-LM.git git clone https://gitee.com/ascend/ModelLink.git 以上任务完成后重新上传代码至OBS
在Notebook中调用SDK,可直接参考接口说明,执行OBS管理、作业管理、模型管理和服务管理等操作。 ModelArts SDK支持在本地安装配置使用。使用时,需进行Session鉴权。 本地安装SDK。
启动Workflow后,运行过程中将会按需收费,请关注实例状态,完成后的工作流请及时停止,避免产生不必要的费用。 停止Workflow 登录ModelArts管理控制台,在左侧导航栏选择“开发空间>Workflow”,进入Workflow总览页面。
适配PyTorch NPU训练指导(6.3.907) LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907) 支持如下模型适配PyTorch-NPU的推理。
src_path 是 String 批量任务输入数据的OBS路径。 dest_path 是 String 批量任务输出结果的OBS路径。
正常 [model 0.0.1] OBS桶,OBS并行文件系统,SFS Turbo挂载成功。 [%s] %s volume successfully. - 服务部署和运行过程中,关键事件支持手动/自动刷新。
如果在线服务开启了“运行日志输出”,删除服务时,推荐同时删除LTS中的日志以及日志流,避免LTS日志流超过限额产生额外费用,如后续不再使用,建议删除。 重启服务 只有当在线服务处于“运行中”或“告警”状态时,才可进行重启操作。批量服务、边缘服务不支持重启。
从OBS中选择元模型 不支持 不支持 方式一:通过服务管理页面修改服务信息 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。 在服务列表中,单击目标服务操作列的“修改”,修改服务基本信息,然后根据提示提交修改任务。
正常 [model 0.0.1] OBS桶,OBS并行文件系统,SFS Turbo挂载成功。 [%s] %s volume successfully. - 服务部署和运行过程中,关键事件支持手动/自动刷新。
重启节点操作不会收取费用。 图11 重启节点 图12 操作记录 重启节点将影响相关业务的运行,请谨慎操作。 节点状态为“可用”、“不可用”的节点才能进行重启。 同一时间单个节点只能处于一个重启任务中,无法对同一个节点同时下发多个重启任务。
适配PyTorch NPU训练指导(6.3.908) LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908) 支持如下模型适配PyTorch-NPU的推理。
可选值如下: asc:递增排序 desc:递减排序(默认值) process_parameter 否 String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。
正常的实例会产生费用,此时服务状态是concerning。 failed:失败,服务部署失败,失败原因可以查看事件和日志标签。 stopped:停止。 finished:只有批量服务会有这个状态,表示运行完成。
“保存路径”:表示新数据集的输入路径,即当前数据导出后存储的OBS路径。 “输出路径”:表示新数据集的输出路径,即新数据集在完成标注后输出的路径。“输出路径”不能与“保存路径”为同一路径,且“输出路径”不能是“保存路径”的子目录。
元模型来源 显示元模型的来源,主要有从训练中选择、从对象存储服务(OBS)中选择、从容器镜像中选择。不同来源的元模型,模型显示的参数会不同。 训练作业名称 如果元模型来源于训练作业,则显示关联的训练作业,单击训练作业名称可以直接跳转到训练作业详情页面。
train_url String 训练作业的输出文件OBS路径URL,默认为空。 version_format String 数据集版本格式。