搜索_华为云

执行训练任务 - AI开发平台ModelArts

yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
停止训练作业版本 - AI开发平台ModelArts

停止训练作业版本功能介绍停止训练作业。此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 参数说明如表1所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练迁移快速入门案例 - AI开发平台ModelArts

见容器环境搭建。训练代码迁移前提条件要迁移的训练任务代码在GPU上多次训练稳定可收敛。训练业务代码和数据，应该确保在GPU环境中能够运行，并且训练任务有稳定的收敛效果。本文只针对基于PyTorch的训练代码迁移。此处假设用户使用基于PyTorch的训练代码进行迁移。其他的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
Standard模型训练 - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？在ModelArts训练代码中，如何获取依赖文件所在的路径？自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规

 帮助中心 > AI开发平台ModelArts > 常见问题
修改训练作业优先级 - AI开发平台ModelArts

修改训练作业优先级使用专属资源池训练作业时，支持在创建训练作业时设置任务优先级，也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。什么是训练作业优先级在用户运行训练作业过程中，需要对训练作业做优先级划分。比如有一些任务是低优先级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看训练作业日志 - AI开发平台ModelArts

训练日志包括普通训练日志和Ascend相关日志。普通日志说明：当使用Ascend之外的资源训练时仅产生普通训练日志，普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明：使用Ascend资源训练时会产

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询训练作业日志 - AI开发平台ModelArts

查询训练作业日志功能介绍按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。表1 路径参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练精度测试 - AI开发平台ModelArts

yaml相对或绝对路径 <model_name>：训练模型名，如qwen2.5-7b <exp_name>：实验名称：包含训练策略类型及数据序列长度：【lora：4096-lora、full：4096-full】训练完成后，test-benchmark目录下会生成训练日志及NPU利用率日志及权重文件，如qwen2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GPU相关问题业务代码问题预置算法运行故障训练作业运行失败专属资源池创建训练作业训练作业性能问题 Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除
管理训练容器环境变量 - AI开发平台ModelArts

单位：分钟默认值：30 “30” 如何查看训练环境变量在创建训练作业时，“启动命令”输入为“env”，其他参数保持不变。当训练作业执行完成后，在训练作业详情页面中查看“日志”。日志中即为所有的环境变量信息。图1 查看日志父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询训练作业指定任务的日志（预览） - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

nizer文件，具体请参见训练tokenizer文件说明。 Step2 创建预训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
使用SDK调测单机训练作业 - AI开发平台ModelArts

job_name：可选参数，训练任务名，便于区分和记忆。本地单机调试训练任务开始后，SDK会依次帮助用户完成以下流程：初始化训练作业，如果2指定的训练数据在OBS上，这里会将数据下载到local_path中。执行训练任务，用户的训练代码需要将训练输出保存在4中指定的local_path中。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
训练专属预置镜像列表 - AI开发平台ModelArts

训练专属预置镜像列表 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

算法代码存储的OBS路径。训练代码、依赖安装包或者预生成模型等训练所需文件上传至该代码目录下。请注意不要将训练数据放在代码目录路径下。训练数据比较大，训练代码目录在训练作业启动后会下载至后台，可能会有下载失败的风险。训练作业创建完成后，ModelArts会将代码目录及其子目录下载至训练后台容器中。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
执行训练任务【新】 - AI开发平台ModelArts

执行训练任务【新】新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器（默认开启）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
BF16和FP16说明 - AI开发平台ModelArts

从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

加可靠，可以适当增大学习率。以下对resnet18在cifar10数据集上的分类任务，给出了单机训练和分布式训练改造(DDP)的代码。直接执行代码为多节点分布式训练且支持CPU分布式和GPU分布式，将代码中的分布式改造点注释掉后即可进行单节点单卡训练。训练代码中包含三部分入参

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 2653

上一页
1
...
4
5
6
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

停止训练作业版本 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

查询训练作业日志 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

查询训练作业指定任务的日志（预览） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线