搜索_华为云

创建训练作业镜像保存任务 - AI开发平台ModelArts

training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数表2 请求Body参数参数是否必选参数类型描述 name 否 String 镜像名

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

创建调试训练作业 - AI开发平台ModelArts

创建调试训练作业使用PyCharm ToolKit创建并调试训练作业使用VS Code创建并调试训练作业父主题：使用ModelArts Standard训练模型

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型

更新训练作业描述 - AI开发平台ModelArts

Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 update_job_configs请求参数说明参数

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

创建训练作业版本 - AI开发平台ModelArts

创建训练作业版本功能介绍创建一个训练作业版本。该接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。表1 参数说明

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

查看训练作业资源占用情况 - AI开发平台ModelArts

1。训练作业的资源占用情况系统会自动保存30天，过期会被清除。如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“监控”页签查看训练作业的资

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业

训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 模型训练高可靠性

模型训练使用流程 - AI开发平台ModelArts

例如：增量训练分布式训练训练加速训练高可靠性查看训练结果和日志查看训练作业详情训练作业运行中或运行结束后，可以在训练作业详情页面查看训练作业的参数设置，训练作业事件等。查看训练作业日志训练日志用于记录训练作业运行过程和异常信息，可以通过查看训练作业日志定位作业运行中出现的问题。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用查询训练作业详情接口使用刚创建的训练作业返回的id查询训练作业状态。调用查询训练作业指定任务的日志（OBS链接）接口获取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例

查询算法详情 - AI开发平台ModelArts

为默认的工作空间。 ai_project String 指定算法所属的ai项目，默认值为"default-ai-project"。ai项目已下线，无需关注。 user_name String 用户名称。 domain_id String 用户的domainID。 source String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b.sh。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）

【CANN训练营】CANN训练营_昇腾AI趣味应用实现AI趣味应用（上）随笔

Neural Networks)是华为公司针对AI场景推出的异构计算架构，通过提供多层次的编程接口，支持用户快速构建基于昇腾平台的AI应用和业务。包括： AscendCL：昇腾硬件的统一编程接口，包含了编程模型、硬件资源抽象、AI任务及内核管理、内存管理、模型和算子调用、媒体预

开发者 > 博客

作者： Tianyi_Li

发表时间： 2022-07-09 07:30:06

4333

0

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

-a -G root ma-user 其他现象，可以在已有的训练故障案例查找。建议与总结用户使用自定义镜像训练作业时，建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。父主题：训练作业运行失败

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

创建生产训练作业 - AI开发平台ModelArts

时，则支持选择训练模式。（可选）设置标签：如果需要对训练作业进行资源分组管理，可以设置标签。后续操作。进入创建训练作业页面登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”进入训练作业列表。单击“创建训练作业”，进入创建训练作业页面。配置训练作业基本信息

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

获取训练作业支持的公共规格 - AI开发平台ModelArts

获取训练作业支持的公共规格功能介绍获取训练作业支持的公共规格。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

基于华为AI训练平台ModelArts+MindSpore+Ascend910的目标检测和ModelArts平台训练流程分析

这里开始输出常见的训练日志文件。随着epoch++，loss下降，学习率也在增加，这正是AI训练的优势,可以随时地在训练过程中调整一些超参。训练结束，可以查看p1\yolo\output和p1\yolo\log 做进一步的分析 modelarts平台会保存每一次的训练记录，这样

开发者 > 博客

作者：潘玮成

发表时间： 2023-11-29 22:42:52

66

0

创建训练作业镜像保存任务 - AI开发平台ModelArts

创建调试训练作业 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

【CANN训练营】CANN训练营_昇腾AI趣味应用实现AI趣味应用（上）随笔

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

基于华为AI训练平台ModelArts+MindSpore+Ascend910的目标检测和ModelArts平台训练流程分析

SFT全参微调训练 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

意见反馈