搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明

断点续训练 - AI开发平台ModelArts

TRAIN_ITERS 300 必填。表示训练周期，必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型，retrain表示断点续训练。在AscendSpeed代码目录下执行断点续训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练

GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导训练业务迁移到昇腾设备场景介绍训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优训练网络迁移总结父主题： GPU业务迁移至昇腾训练推理

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理

执行训练任务【新】 - AI开发平台ModelArts

convert_mg2hf_at_last 1 Megatron格式权重转换为HuggFace格式权重，如不 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 train-iters 10 非必填。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明

大数据基础设施专家服务 - 专业服务

大数据基础设施专家服务服务简介结合华为云丰富的大数据平台和基础云服务经验，为企业提供高性能、高可靠的大数据业务基础资源、AI训练推理平台，快速实现企业数据化、智能化转型。前提条件客户应提前至少3个工作日申请该服务，以便于华为云评估客户需求及协调专家。

帮助中心 > 专业服务 > 产品介绍 > 上云与实施

训练作业权限 - AI开发平台ModelArts

训练作业权限表1 训练作业（新版）细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建训练作业 POST /v2/{project_id}/training-jobs modelarts:trainJob:create swr:repository

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

增加训练数据作用不大。欠拟合一般是因为模型的学习能力不足，一味地增加数据，训练效果并不明显。降低正则化约束。正则化约束是为了防止模型过拟合，如果模型压根不存在过拟合而是欠拟合了，那么就考虑是否降低正则化参数λ或者直接去除正则化项。父主题： Standard模型训练

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导 Dit模型PyTorch迁移与精度性能调优 msprobe

帮助中心 > AI开发平台ModelArts > 最佳实践

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

但是当启动命令python train.py后面有其他命令时，如下所示： python train.py pwd #反例，启动命令的最后一条命令不是运行训练脚本，而是pwd 此时，如果拼接了输入管道、输出管道、以及超参，系统运行实际执行的是python train.py pwd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码

查询算法详情 - AI开发平台ModelArts

父主题：训练管理

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）

训练tokenizer文件说明 - AI开发平台ModelArts

需要在训练开始前，修改llm_train/AscendSpeed/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明

训练tokenizer文件说明 - AI开发平台ModelArts

需要在训练开始前，修改llm_train/AscendSpeed/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明

训练tokenizer文件说明 - AI开发平台ModelArts

需要在训练开始前，修改llm_train/AscendSpeed/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明

训练tokenizer文件说明 - AI开发平台ModelArts

需要在训练开始前，修改llm_train/AscendSpeed/yi/3_training.sh文件，并添加--tokenizer-not-use-fast参数。修改后如图1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明

硬盘限制故障 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法父主题：训练作业

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

训练启动脚本说明和参数配置 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

大数据基础设施专家服务 - 专业服务

训练作业权限 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

硬盘限制故障 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线