搜索_华为云

查询训练作业标签 - AI开发平台ModelArts

查询训练作业标签功能介绍查询训练作业标签。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/trainJob/{training_job_id}/tags

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

在模型详情页，选择“训练 > 微调大师”进入微调工作流页面。选择训练任务类型选择模型微调的训练任务类型。当模型的“任务类型”是“文本问答”或“文本生成”时，“训练任务类型”默认和模型“任务类型”一致。“训练任务类型”支持修改，如果模型文件满足自定义模型规范（训练），则“训练任务类型”支持选择“自定义”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
准备模型训练镜像 - AI开发平台ModelArts

7-ubuntu_1804-x86_64 构建自定义训练镜像当基础镜像里的软件无法满足您的程序运行需求时，您还可以基于这些基础镜像制作一个新的镜像并进行训练。镜像制作流程如图1所示。图1 训练作业的自定义镜像制作流程场景一：预置镜像满足ModelArts训练平台约束，但不满足代码依赖的要求，需要额外安装软件包。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业创建训练作业训练作业调测查询训练作业列表查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练日志查询训练作业的运行指标父主题：训练管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

为默认的工作空间。 ai_project String 指定算法所属的ai项目，默认值为"default-ai-project"。ai项目已下线，无需关注。 user_name String 用户名称。 domain_id String 用户的domainID。 source String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

调用API创建训练作业，训练作业异常问题现象调用API接口创建训练作业（专属资源池为CPU规格），训练作业状态由“创建中”转变为“异常”，训练作业详情界面“规格信息”为“--”。原因分析调用接口传入了CPU规格的专属资源池不支持的参数。处理步骤检查API请求的请求体中

 帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
文生图模型训练推理 - AI开发平台ModelArts

5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） Open-Clip基于DevServer适配PyTorch NPU训练指导 AIGC工具tailor使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
模型训练计费项 - AI开发平台ModelArts

模型训练计费项计费说明在ModelArts进行模型训练时，会产生计算资源和存储资源的累计值计费。计算资源为训练作业运行的费用。存储资源包括数据存储到OBS或SFS的费用。具体内容如表1所示。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源公共资源池使用计算资源的用量。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
训练作业重调度 - AI开发平台ModelArts

训练作业重调度当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
创建训练作业 - AI开发平台ModelArts

创建训练作业功能介绍创建一个训练作业。该接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练场景和方案介绍 - AI开发平台ModelArts

5模型的训练过程，包括Finetune训练、LoRA训练和Controlnet训练。约束限制本方案目前仅适用于企业客户。本文档适配昇腾云ModelArts 6.3.908版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练作业容错检查 - AI开发平台ModelArts

使用reload ckpt恢复中断的训练在容错机制下，如果因为硬件问题导致训练作业重启，用户可以在代码中读取预训练模型，恢复至重启前的训练状态。用户需要在代码里加上reload ckpt的代码，使能读取训练中断前保存的预训练模型。具体请参见断点续训练。父主题：模型训练高可靠性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
LoRA微调训练 - AI开发平台ModelArts

创建LoRA微调训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

er文件，具体请参见训练tokenizer文件说明。 Step2 创建LoRA微调训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像训练作业启动命令中输入： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
发布需求 - AI开发平台ModelArts
发布需求 - AI开发平台ModelArts

发布需求如果你已经注册成为了AI Gallery平台上的合作伙伴，你可以在AI Gallery上发布你的需求。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。左侧菜单栏选择“我的需求”进入我的需求列表页，单击右上方的“发布”，进入发布需求页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 需求广场
文生视频模型训练推理 - AI开发平台ModelArts

文生视频模型训练推理 CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） Open-Sora1.2基于DevServer适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践
修改训练作业优先级 - AI开发平台ModelArts

修改训练作业优先级使用专属资源池训练作业时，支持在创建训练作业时设置任务优先级，也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。什么是训练作业优先级在用户运行训练作业过程中，需要对训练作业做优先级划分。比如有一些任务是低优先级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“gpuMemUsage”、“gpuUti

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡

总条数： 2653

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询训练作业标签 - AI开发平台ModelArts

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

文生图模型训练推理 - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

发布需求 - AI开发平台ModelArts

文生视频模型训练推理 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线