搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
模型训练 - 好望商城
模型训练 - 好望商城

模型训练模型训练如果您缺少自有模型训练平台，可以基于ModelArts进行模型在线训练。根据场景选择适用的摄像机。在首页导航栏，进入“选择摄像机型号”页面。

帮助中心 > 好望商城 > 帮助中心 > 开发者指南 > 一站式开发平台使用指南
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

通过Sleep命令使训练作业保持运行如果训练作业使用的是预置框架：在创建训练作业时，“创建方式”选择“自定义算法”，“启动方式”选择“预置框架”，代码目录中新增sleep.py并将此脚本作为“启动文件”。这样启动的作业将会持续运行60分钟。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练精度测试 - AI开发平台ModelArts

图1 训练精度测试流程图执行训练任务进入test-benchmark目录执行训练命令，可以多次执行，按自己实际情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。训练前需要修改数据集路径、模型路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
修改训练作业优先级 - AI开发平台ModelArts

修改训练作业优先级使用专属资源池训练作业时，支持在创建训练作业时设置任务优先级，也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。什么是训练作业优先级在用户运行训练作业过程中，需要对训练作业做优先级划分。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

Session初始化，与使用SDK调测单机训练作业中的1相同。准备训练数据，与使用SDK调测单机训练作业中的2相同，唯一的不同在于obs_path参数是必选的。准备训练脚本。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？模型复杂化。对同一个算法复杂化。例如回归模型添加更多的高次项，增加决策树的深度，增加神经网络的隐藏层数和隐藏单元数等。弃用原来的算法，使用一个更加复杂的算法或模型。例如用神经网络来替代线性回归，用随机森林来代替决策树。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
ModelArts训练作业为什么存在/work和/ma-user两种超参目录？ - AI开发平台ModelArts

如果选择的算法是使用旧版镜像创建的，那么创建训练作业时输入输出参数的超参目录就是/work。图3 创建算法如果选择的算法不是使用旧版镜像创建的，那么创建训练作业时输入输出参数的超参目录就是/ma-user。父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
获取训练作业支持的公共规格 - AI开发平台ModelArts

父主题：训练管理

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch.distributed.launch命令启动训练作业。创建训练作业的关键参数如表2所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
SFT全参微调训练 - AI开发平台ModelArts

对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step2 创建SFT全参微调训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
训练权重转换说明 - AI开发平台ModelArts

训练权重转换说明以 llama2-13b 举例，使用训练作业运行 obs_pipeline.sh 脚本后，脚本自动执行权重转换，并检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
执行训练任务【新】 - AI开发平台ModelArts

步骤二创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。启动SD1.5 LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
更新训练作业参数 - AI开发平台ModelArts

model_id 是 Long 训练作业的模型ID。请通过查询预置算法接口获取model_id。填入model_id后app_url/boot_file_url和engine_id不需填写。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
查询训练作业版本详情 - AI开发平台ModelArts

job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_id Long 训练作业的版本ID。 version_name String 训练作业的版本名称。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练作业卡死检测 - AI开发平台ModelArts

NCCL_IB_TIMEOUT=22：把超时时间设置长一点，正常情况下网络不稳定会有5秒钟左右的间断，超过5秒就返回timeout了，改成22预计有二十秒左右，算法为4.096 µs * 2 ^ timeout。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

总条数： 10000

上一页
1
...
7
8
9
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

模型训练 - 好望商城

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

ModelArts训练作业为什么存在/work和/ma-user两种超参目录？ - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

训练权重转换说明 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

更新训练作业参数 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线