搜索_华为云

已找到以下 10000 条记录

训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GPU相关问题业务代码问题预置算法运行故障训练作业卡死检测定位训练作业运行失败专属资源池创建训练作业训练作业性能问题 Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
模型训练 - AI开发平台ModelArts
模型训练 - AI开发平台ModelArts

模型训练自动学习训练作业创建失败自动学习训练作业失败父主题：自动学习

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习
查询训练作业版本详情 - AI开发平台ModelArts

Integer 训练作业worker的个数。 data_url String 训练作业的数据集。 train_url String 训练作业输出文件OBS路径。 log_url String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 dataset_version_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
Standard模型训练 - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？在ModelArts训练代码中，如何获取依赖文件所在的路径？自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规

 帮助中心 > AI开发平台ModelArts > 常见问题
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
训练作业运行失败排查指导 - AI开发平台ModelArts

原因：Moxing在进行文件复制时，未找到train_data_obs目录。处理建议：修改train_data_obs目录为正确地址，重新启动训练作业。另外在Moxing下载OBS对象过程中，不要删除相应OBS目录下的对象，否则Moxing在下载到被删除的对象时会下载失败。查看训练作业的“日志”，出现报错“CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练作业卡死检测定位 - AI开发平台ModelArts

训练作业卡死检测定位什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
获取训练作业事件列表 - AI开发平台ModelArts

{training_job_id}/events 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
模型训练使用流程 - AI开发平台ModelArts

例如：增量训练分布式训练训练加速训练高可靠性查看训练结果和日志查看训练作业详情训练作业运行中或运行结束后，可以在训练作业详情页面查看训练作业的参数设置，训练作业事件等。查看训练作业日志训练日志用于记录训练作业运行过程和异常信息，可以通过查看训练作业日志定位作业运行中出现的问题。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型
复制、停止或删除训练作业 - AI开发平台ModelArts

当对创建的训练作业不满意时，您可以单击操作列的复制，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业
【CANN训练营】CANN训练营_昇腾AI趣味应用实现AI趣味应用（下）随笔

承接上文《【CANN训练营】CANN训练营_昇腾AI趣味应用实现AI趣味应用（上）随笔》，我们接着来分析。先来介绍下npu-smi工具，其功能类似于英伟达的nvidia-smi都是用来查看硬件状态和信息的，不同的是nvidia-smi是用来查看显卡信息的，npu-smi是用来查

开发者 > 博客

作者： Tianyi_Li

发表时间： 2022-07-09 11:03:23

810

0
删除训练作业 - AI开发平台ModelArts

会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用SDK调测单机训练作业 - AI开发平台ModelArts

job_name：可选参数，训练任务名，便于区分和记忆。本地单机调试训练任务开始后，SDK会依次帮助用户完成以下流程：初始化训练作业，如果2指定的训练数据在OBS上，这里会将数据下载到local_path中。执行训练任务，用户的训练代码需要将训练输出保存在4中指定的local_path中。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查看训练作业日志 - AI开发平台ModelArts

训练日志包括普通训练日志和Ascend相关日志。普通日志说明：当使用Ascend之外的资源训练时仅产生普通训练日志，普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。 Ascend场景日志说明：使用Ascend资源训练时会产

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询训练作业版本列表 - AI开发平台ModelArts

调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_count Long 训练作业的版本数。 versions JSON Array 训练作业的运行版本参数。该样例请参考响应样例。属性详情参见表4。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
更新训练作业描述 - AI开发平台ModelArts

{training_job_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。请求参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建训练作业标签 - AI开发平台ModelArts

/v2/{project_id}/trainJob/{training_job_id}/tags/create 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消