搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
网卡名称错误 - AI开发平台ModelArts

网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练数据集预处理说明 - AI开发平台ModelArts

训练数据集预处理说明以 llama2-13b 举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。若未进行数据集预处理，则会自动执行 scripts/llam

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备图像分类数据 - AI开发平台ModelArts

准备图像分类数据使用ModelArts自动学习构建模型时，您需要将数据上传至对象存储服务（OBS）中。OBS桶需要与ModelArts在同一区域。数据集要求保证图片质量：不能有损坏的图片，目前支持的格式包括jpg、jpeg、bmp、png。不要把明显不同的多个任务数据放在同一个数据集内。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？不是同一个主账号，用户A需要使用用户B的自定义镜像创建Notebook，此时需要用户B将此镜像共享给用户A，用户A将此共享镜像Pull下来注册后方可在Notebook中使用。详细操作如下：用户B的操作：登录容

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 在Notebook中使用自定义镜像常见问题
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。D

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
订阅算法物体检测YOLOv3 - AI开发平台ModelArts

订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot be found 问题现象使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 进行训练作业，训练失败报错label_map.pbtxt cannot

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像场景说明本案例将基于ModelArts提供的MindSpore预置镜像，并借助ModelArts命令行工具(请参考ma-cli镜像构建命令介绍)，通过加载镜像构建模板并修改Dockerfile，构建出一个新镜像，最后注册后在Notebook使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
上传OBS文件到JupyterLab - AI开发平台ModelArts

上传OBS文件到JupyterLab 在Notebook的JupyterLab中，支持将OBS中的文件下载到Notebook。注意：文件大小不能超过10GB，否则会上传失败。通过JupyterLab打开一个运行中的Notebook。单击JupyterLab窗口上方导航栏的ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 Workflow通过支持预置场景的方式来实现部分运行的能力，在开发工作流时按照场景的不同对DAG进行划分，之后在运行态可选择任意场景单独运行。具体代码示例如下所示： workflow =wf.Workflow( name="image_cls"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力

总条数： 2647

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

准备图像分类数据 - AI开发平台ModelArts

不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

订阅算法物体检测YOLOv3 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

上传OBS文件到JupyterLab - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线