搜索_华为云

执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（推荐）步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
LoRA微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明以llama2-13b举例，使用训练作业运行obs_pipeline.sh脚本后，脚本自动执行权重转换，并检查是否已经完成权重转换的过程。如果已完成权重转换，则直接执行训练任务。如果未进行权重转换，则会自动执行scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

de/train.py 使用Ascend自定义镜像训练时的训练代码适配规范使用NPU资源创建训练作业时，系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时，在训练过程中预置框架会自动解析Ascend HCCL RA

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
创建调试训练作业 - AI开发平台ModelArts

创建调试训练作业使用PyCharm ToolKit创建并调试训练作业使用VS Code创建并调试训练作业父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】如果用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，请根据实际模型修改。表1 模型训练脚本参数参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH 【预训练：pt】预训练数据集相对或绝对地址【微调：sft】微调数据集相对或绝对地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】如果用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，请根据实际模型修改。表1 模型训练脚本参数参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH 【预训练：pt】预训练数据集相对或绝对地址【微调：sft】微调数据集相对或绝对地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练模型 - 网络智能体
训练模型 - 网络智能体

训练模型特征和算法确定后，可以开始训练模型。训练模型单击“模型选择”左下方的“训练模型”。新增“训练模型”内容，如图1所示。图1 训练模型单击“训练模型”代码框左侧的图标，进行模型训练。模型训练完成后，界面下方展示模型的评估效果。第一列内容的含义如下所示： 0：标注为0的所有样本。可以理解为标签。

帮助中心 > 网络智能体 > 模型训练服务 > 学件开发指南 > KPI异常检测学件服务 > 模型训练
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
查询训练作业版本详情 - AI开发平台ModelArts

job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_id Long 训练作业的版本ID。 version_name String 训练作业的版本名称。 pre_version_id Long 训练作业前一版本的名称。 engine_type

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查看训练作业标签 - AI开发平台ModelArts

查看训练作业标签通过给训练作业添加标签，可以标识云资源，便于快速搜索训练作业。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“标签”页签查看标签信息。支持添加、修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

训练作业训练失败报错：TypeError: unhashable type: ‘list’ 问题现象使用订阅算法图像分类-EfficientNetB4进行训练报错：TypeError: unhashable type: ‘list’。原因分析可能由于使用了多标签分类导致（即一个图片用了1个以上的标签）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用查询训练作业详情接口使用刚创建的训练作业返回的id查询训练作业状态。调用查询训练作业指定任务的日志（OBS链接）接口获取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

通过torch.distributed.run命令启动创建训练作业方式一：使用PyTorch预置框架功能，通过mp.spawn命令启动训练作业。创建训练作业的关键参数如表1所示。表1 创建训练作业（预置框架）参数名称说明创建方式选择“自定义算法”。启动方式选择“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
设置断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts Standard训练中实现断点续训练或增量训练，建议使用“训练输出”功能。在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业性能问题 - AI开发平台ModelArts

训练作业性能问题训练作业性能降低父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

总条数： 10000

上一页
1
...
6
7
8
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务（推荐） - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

创建调试训练作业 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练模型 - 网络智能体

训练启动脚本说明和参数配置 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

查看训练作业标签 - AI开发平台ModelArts

训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

训练作业性能问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线