搜索_华为云

删除训练作业标签 - AI开发平台ModelArts

父主题：训练管理

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查看训练作业日志 - AI开发平台ModelArts

ModelArts平台日志 ModelArts平台产生的系统日志，主要用于运维人员定位平台问题。普通日志的文件格式如下，其中task id为训练作业中的节点id。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方式”选择“自定义算法”，“启动方式”选择“自定义”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
平台介绍 - 好望商城
平台介绍 - 好望商城

平台介绍一站式开发平台，包括训练云、调试云和应用云（即好望商城），帮助开发者进行算法开发和调试，加快算法上线。训练云：即ModelArts平台，提供全自动和半自动的算法训练和模型开发。调试云：包含模型转换、打包和调试，供开发者进行算法APP基本功能验证。

帮助中心 > 好望商城 > 帮助中心 > 开发者指南 > 一站式开发平台使用指南
训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

预训练模型当前服务提供安全帽检测预置模型“saved_model.pb”，请勾选预训练模型。确认信息后，单击“开始训练”。图1 模型训练模型训练一般需要运行一段时间，等模型训练完成后，“应用开发>模型训练”页面下方显示训练详情。

帮助中心 > 企业级AI应用开发专业套件 ModelArts Pro > 用户指南 > HiLens套件 > HiLens安全帽检测技能
发布算法工程服务 - 网络智能体

发布算法工程服务如果当前算法工程操作流处理效果比较好，可以得到比较优质的训练数据，可以将当前的算法工程发布成服务。支持复用此服务对其他数据进行相同的特征操作。在JupyterLab环境编辑界面，单击界面右上角的图标。

帮助中心 > 网络智能体 > 模型训练服务 > 用户指南 > 特征工程 > JupyterLab开发平台 > 数据处理
查看训练作业事件 - AI开发平台ModelArts

可能原因是跨区域算法同步或者创建共享存储超时训练作业已排队，正在等待资源分配训练作业排队失败训练作业开始运行训练作业运行成功训练作业运行失败训练作业被抢占系统检测到您的作业疑似卡死，请及时前往作业详情界面查看并处理训练作业已重启训练作业已被手动终止训练作业已被终止

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

通过Sleep命令使训练作业保持运行如果训练作业使用的是预置框架：在创建训练作业时，“创建方式”选择“自定义算法”，“启动方式”选择“预置框架”，代码目录中新增sleep.py并将此脚本作为“启动文件”。这样启动的作业将会持续运行60分钟。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询训练作业列表 - AI开发平台ModelArts

install_sys_packages Boolean 是否需要安装训练平台指定的 moxing 版本。true为需要。只有填写了engine_name，engine_version，image_url参数时支持该设置。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch.distributed.launch命令启动训练作业。创建训练作业的关键参数如表2所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

对于ChatGLMv3-6B和Qwen系列模型，还需要手动修改tokenizer文件，具体请参见训练tokenizer文件说明。 Step2 创建预训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
训练作业卡死检测 - AI开发平台ModelArts

NCCL_IB_TIMEOUT=22：把超时时间设置长一点，正常情况下网络不稳定会有5秒钟左右的间断，超过5秒就返回timeout了，改成22预计有二十秒左右，算法为4.096 µs * 2 ^ timeout。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
删除训练作业 - AI开发平台ModelArts

删除训练作业示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id删除。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

LoRA训练本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上，使用新的数据集进行LoRA微调以优化模型性能的过程。训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用获取训练作业支持的公共规格接口获取训练作业支持的资源规格。调用获取训练作业支持的AI预置框架接口查看训练作业支持的引擎类型和版本。调用创建算法接口创建一个算法，记录算法id。调用创建训练作业接口使用刚创建的算法返回的uuid创建一个训练作业，记录训练作业id。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。训练前需要修改数据集路径、模型路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

总条数： 10000

上一页
1
...
4
5
6
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

删除训练作业标签 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

平台介绍 - 好望商城

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

发布算法工程服务 - 网络智能体

查看训练作业事件 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线