检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
样本标注信息。如果不给出,则是未标注对象。 annotations值为一个对象列表。标注属性请见表4。 usage String 用途,可选值为TRAIN、EVAL、TEST、INFERENCE。指明该对象用于训练、评估、测试、推理,如果没有给出该字段,则使用者自行决定如何使用该对象。 inference_loc
在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: Standard Notebook
yaml文件 k8s有两种方式来管理对象: 命令式,即通过Kubectl指令直接操作对象。 声明式,通过定义资源YAML格式的文件来操作对象。 首先给出单个节点训练的config.yaml文件模板,用于配置pod。而在训练中,需要按照参数说明修改${}中的参数值。该模板使用SFS Turbo挂载方案。
yaml文件 k8s有两种方式来管理对象: 命令式,即通过Kubectl指令直接操作对象。 声明式,通过定义资源YAML格式的文件来操作对象。 首先给出单个节点训练的config.yaml文件模板,用于配置pod。而在训练中,需要按照参数说明修改${}中的参数值。该模板使用SFS Turbo挂载方案。
yaml文件 k8s有两种方式来管理对象: 命令式,即通过Kubectl指令直接操作对象。 声明式,通过定义资源YAML格式的文件来操作对象。 首先给出单个节点训练的config.yaml文件模板,用于配置pod。而在训练中,需要按照参数说明修改${}中的参数值。该模板使用SFS Turbo挂载方案。
ts” 和文件夹名称均为举例,请替换为用户自定义的名称。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。 请确保您使用的OBS与ModelArts在同一区域。 表1 OBS桶文件夹列表 文件夹名称 用途 “obs://test-modelarts/mpi/demo-code/”
ts” 和文件夹名称均为举例,请替换为用户自定义的名称。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。 请确保您使用的OBS与ModelArts在同一区域。 表1 OBS桶文件夹列表 文件夹名称 用途 “obs://test-modelarts/mpi/demo-code/”
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
yaml文件 k8s有两种方式来管理对象: 命令式,即通过Kubectl指令直接操作对象。 声明式,通过定义资源YAML格式的文件来操作对象。 首先给出单个节点训练的config.yaml文件模板,用于配置pod。而在训练中,需要按照参数说明修改${}中的参数值。该模板使用SFS Turbo挂载方案。
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
准备工作 准备资源 准备数据 准备权重 准备代码 将数据预热到SFS Turbo 准备镜像 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
训练脚本说明 训练脚本参数说明 不同模型推荐的参数与NPU卡数设置 训练tokenizer文件说明 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
补充健康的计算节点至专属资源池。(该功能即将上线) 容错检查详细介绍请参考: 开启容错检查 检测项目与执行条件 触发容错环境检测达到的效果 环境预检查通过后,如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑,使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。
scope参数定义了Token的作用域,示例中获取的Token仅能访问project下的资源。Modelarts使用区域的Endpoint(非全局域名)调用该接口,推荐您将scope设置为project。您还可以设置Token作用域为某个账号下所有资源或账号的某个project下的资源,详细定义请参见获取用户Token。
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.909)