搜索_华为云

【CANN训练营】CANN训练营_昇腾AI趣味应用实现AI趣味应用（下）随笔

承接上文《【CANN训练营】CANN训练营_昇腾AI趣味应用实现AI趣味应用（上）随笔》，我们接着来分析。先来介绍下npu-smi工具，其功能类似于英伟达的nvidia-smi都是用来查看硬件状态和信息的，不同的是nvidia-smi是用来查看显卡信息的，npu-smi是用来查

开发者 > 博客

作者： Tianyi_Li

发表时间： 2022-07-09 11:03:23

810

0

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败）问题现象训练启动的日志出现如下相关错误： time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题

预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）

查看训练作业标签 - AI开发平台ModelArts

查看训练作业标签通过给训练作业添加标签，可以标识云资源，便于快速搜索训练作业。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“标签”页签查看标签信息。支持添加、修改

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业

预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的 llm_train/AscendSpeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

设置断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts Standard训练中实现断点续训练或增量训练，建议使用“训练输出”功能。在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 模型训练高可靠性

查看训练作业事件 - AI开发平台ModelArts

训练作业创建失败报错：准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时训练作业已排队，正在等待资源分配训练作业排队失败训练作业开始运行训练作业运行成功训练作业运行失败训练作业被抢占系统检测到您的作业疑似卡死，请及时前往作业详情界面查看并处理训练作业已重启

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

在模型详情页，选择“训练 > 微调大师”进入微调工作流页面。选择训练任务类型选择模型微调的训练任务类型。当模型的“任务类型”是“文本问答”或“文本生成”时，“训练任务类型”默认和模型“任务类型”一致。“训练任务类型”支持修改，如果模型文件满足自定义模型规范（训练），则“训练任务类型”支持选择“自定义”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）

创建训练任务 - AI开发平台ModelArts

单击“提交”，在“信息确认”页面，确认训练作业的参数信息，确认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡

创建训练作业参数 - AI开发平台ModelArts

规格接口获取引擎规格ID。 train_url 否 String 训练作业的输出文件OBS路径URL，默认为空，如“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 user_image_url

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

训练作业进程异常退出 - AI开发平台ModelArts

训练作业进程异常退出问题现象训练作业运行失败，日志中出现如下类似报错： [Modelarts Service Log]Training end with return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中，具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置以llama2-13b预训练为例，执行脚本0_pl_pretrain_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）

训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

训练作业训练失败报错：TypeError: unhashable type: ‘list’ 问题现象使用订阅算法图像分类-EfficientNetB4进行训练报错：TypeError: unhashable type: ‘list’。原因分析可能由于使用了多标签分类导致（即一个图片用了1个以上的标签）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

conv2d/weights. 通过以下方式控制需要训练的参数列表。其中，“trainable_include_patterns”为需要训练的参数列表，“trainable_exclude_patterns”为不需要训练的参数列表。 --trainable_exclude_patterns:

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

查询训练作业指定任务的日志（OBS链接） - AI开发平台ModelArts

training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数表2 请求Header参数参数是否必选参数类型描述 Content-Type

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

删除训练作业参数 - AI开发平台ModelArts

删除训练作业参数功能介绍删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

查看训练作业监控指标 - AI开发平台ModelArts

查看训练作业监控指标在训练作业运行过程中，如果用户能在模型训练出问题（例如loss值异常）的情况下能收到告警并及时处理，可以节省大量时间和资源，避免无效运行作业导致的浪费。同时通过指标监控可以实时掌握训练作业的进度，了解模型在不同阶段的训练状态。当前ModelArts Sta

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 管理模型训练作业

更新训练作业参数 - AI开发平台ModelArts

String 训练作业的输出文件OBS路径URL，默认为空，如“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 user_image_url 否 String 自定义镜像训练作业的自定义镜像的SWR-URL。如：“100

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

专属资源池创建训练作业 - AI开发平台ModelArts

专属资源池创建训练作业创建训练作业界面无云存储名称和挂载路径排查思路父主题：训练作业

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

预训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

意见反馈