搜索_华为云

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

Gallery微调大师训练模型 AI Gallery支持将模型进行微调，训练后得到更优模型。场景描述模型微调是深度学习中的一种重要技术，它是指在预训练好的模型基础上，通过调整部分参数，使其在特定任务上达到更好的性能。在实际应用中，预训练模型是在大规模通用数据集上训练得到的，而在特定

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
执行训练任务 - AI开发平台ModelArts

yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

用于控制训练过程中学习率下降的幅度。计算公式为：最低学习率 = 初始学习率 × 学习率衰减比率。学习率学习率决定每次训练中模型参数更新的幅度。选择合适的学习率至关重要：如果学习率过大，模型可能无法收敛。如果学习率过小，模型的收敛速度将变得非常慢。训练轮数表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
新建多个训练作业 - 推荐系统 RES

离线排序作业名称（在线训练任务需要提供此参数）。 update_interval 否 Integer 更新周期（在线训练任务需要提供此参数）。 optimizer 否 Optimizer object 优化器（在线训练任务需要提供此参数）。 flows 否 Flow object 在线流程（在线训练任务需要提供此参数）。

帮助中心 > 推荐系统 RES > API参考 > API > 训练作业
查看训练作业事件 - AI开发平台ModelArts

训练作业创建失败报错：准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时训练作业已排队，正在等待资源分配训练作业排队失败训练作业开始运行训练作业运行成功训练作业运行失败训练作业被抢占系统检测到您的作业疑似卡死，请及时前往作业详情界面查看并处理训练作业已重启

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建项目 - 网络智能体
创建项目 - 网络智能体

图片。单击“创建”，完成项目创建，并进入项目概览页面。如果用户当前不在模型训练服务首页，想要回到首页，请单击界面左上角的“模型训练”，从下拉框中选择“模型训练”。父主题：使用模型训练服务快速训练算法模型

 帮助中心 > 网络智能体 > 模型训练服务 > 快速入门 > 使用模型训练服务快速训练算法模型
获取横向联邦学习作业详情 - 可信智能计算服务 TICS

获取横向联邦学习作业详情功能介绍获取横向联邦学习作业详情调用方法请参见如何调用API。 URI GET /v1/{project_id}/leagues/{league_id}/fl-jobs/{job_id} 表1 路径参数参数是否必选参数类型描述 project_id

帮助中心 > 可信智能计算服务 TICS > API参考 > 计算节点API > 可信联邦学习作业管理
创建训练作业版本 - AI开发平台ModelArts

job_id Long 训练作业的ID。 job_name String 训练作业的名称 status Int 训练作业的运行状态，详细作业状态列表请参见作业状态参考。 create_time Long 训练作业的创建时间，时间戳格式。 version_id Long 训练作业的版本ID。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。对应训练参数 pipe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
更新训练作业描述 - AI开发平台ModelArts

Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 update_job_configs请求参数说明参数

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明以llama2-13b举例，使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行预训练任务。若未进行权重转换，则会自动执行scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
前提条件 - 网络智能体
前提条件 - 网络智能体

前提条件已经注册华为云账号。已经创建IAM用户。已经订购过NAIE模型训练服务。父主题：使用模型训练服务快速训练算法模型

 帮助中心 > 网络智能体 > 模型训练服务 > 快速入门 > 使用模型训练服务快速训练算法模型
创建CV大模型训练任务 - 盘古大模型 PanguLargeModels

选择所需微调的基础模型。训练参数数据集训练数据集。自定义L1预训练模型目录自定义预训练模型所在的OBS路径。训练轮数表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。是否使用自定义L1预训练模型是否使用自定义预训练模型进行训练，模型为用户与服务共建，详情请联系客服。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型 > 训练CV大模型
模型训练 - 网络智能体
模型训练 - 网络智能体

模型训练导入SDK 选择数据特征画像模型选择训练模型测试模型开发推理归档模型父主题： KPI异常检测学件服务

 帮助中心 > 网络智能体 > 模型训练服务 > 学件开发指南 > KPI异常检测学件服务
模型管理简介 - 网络智能体
模型管理简介 - 网络智能体

模型管理简介训练模型的开发和调优往往需要大量的迭代和调试，数据集的变化、训练算法或者超参的变化都可能会影响模型的质量。用户可将训练完成的优质模型打包到模型管理中，进行统一管理。模型管理中可以查看模型包的详细信息、将多个归档好或者打包好的模型合打成一个模型包、发布模型包至应用市场

 帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 模型管理
附录：训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deeps

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。对应训练参数 pipe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
LoRA微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 8366

上一页
1
...
9
10
11
...
419
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

新建多个训练作业 - 推荐系统 RES

查看训练作业事件 - AI开发平台ModelArts

创建项目 - 网络智能体

获取横向联邦学习作业详情 - 可信智能计算服务 TICS

创建训练作业版本 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

前提条件 - 网络智能体

创建CV大模型训练任务 - 盘古大模型 PanguLargeModels

模型训练 - 网络智能体

模型管理简介 - 网络智能体

附录：训练常见问题 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线