搜索_华为云

训练日志失败分析 - AI开发平台ModelArts

有错误，提供的失败可能原因仅供参考。针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。参考案例解决：会提供当前故障对应的指导文档链接，请参照文档中的解决方案修复问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业卡死检测 - AI开发平台ModelArts

资源利用率：在作业进程IO没有变化的情况下，采集一定时间段内的GPU利用率或NPU利用率，并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化，则判定作业卡死。约束限制卡死检测仅支持资源类型为GPU和NPU的训练作业。操作步骤卡死检

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题：使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃在Notebook实例中运行训练代码，如果数据量太大或者训练层数太多，亦或者其他原因，导致出现“内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
出现“save error”错误，可以运行代码，但是无法保存 - AI开发平台ModelArts

error”错误。大多数原因是华为云WAF安全拦截导致的。当前页面，即用户的输入或者代码运行的输出有一些字符被华为云拦截，认为有安全风险。出现此问题时，请提交工单，联系专业的工程师帮您核对并处理问题。父主题： Notebook实例常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误问题现象基于TensorFlow-1.8启动训练作业，并在代码中使用“tf.gfile”模块连接OBS，启动训练作业后会频繁打印如下日志信息： Connection has been released. Continuing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
SFT全参微调训练 - AI开发平台ModelArts

Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
资源池监控 - AI开发平台ModelArts

表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。表2 Query参数参数是否必选参数类型描述 time_range 否

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
通过团队标注方式标注数据 - AI开发平台ModelArts

团队标注使用流程创建和管理团队创建团队标注任务审核并验收团队标注任务结果管理团队和团队成员父主题：标注ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
创建自动模型优化的训练作业 - AI开发平台ModelArts

ModelArts支持用户使用超参搜索功能。在0代码修改的基础下，实现算法模型的超参搜索。需要完成以下步骤：准备工作创建算法创建训练作业查看超参搜索作业详情准备工作数据已完成准备：已在ModelArts中创建可用的数据集，或者您已将用于训练的数据集上传至OBS目录。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
查找Workflow工作流 - AI开发平台ModelArts

在Workflow列表页，您可以通过搜索框，根据工作流的属性类型快速搜索过滤到相应的工作流，可节省您的时间。登录ModelArts管理控制台，在左侧导航栏选择“开发空间>Workflow”，进入Workflow总览页面。在工作流列表上方的搜索框中，根据您需要的属性类型，例如名称、状态、当前节点、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
发布Workflow - AI开发平台ModelArts

发布Workflow 发布Workflow到ModelArts 发布Workflow到AI Gallery 父主题：开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
Workflow高阶能力 - AI开发平台ModelArts

Workflow高阶能力在Workflow中使用大数据能力（DLI/MRS）在Workflow中指定仅运行部分节点父主题：开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

两条策略，便于授权时设置最小授权范围。此处的“trainJob”为项目级云服务、“trainJobobs”为全局级云服务。了解更多创建用户组并加入用户，步骤请参考Step1 创建用户组并加入用户。给用户组授权策略。在IAM服务的用户组列表页面，单击“授权”，进入到授权页面，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
管理Lite Cluster节点 - AI开发平台ModelArts

实现对多个节点的资源释放。若是“包年/包月”且资源未到期的资源池，您可单击操作列的“退订”，即可实现对单个节点的资源释放。若是“包年/包月”且资源到期的资源池（处于宽限期），您可单击操作列的“释放”，即可实现对单个节点的资源释放。部分“包年/包月”节点会出现“删除”按钮，原

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
训练作业重调度 - AI开发平台ModelArts

当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业容错检查 - AI开发平台ModelArts

如果作业重启次数没有达到设定的次数，则会自动做重新下发作业。您可以通过搜索“error,exiting”关键字查找作业重启失败结束的日志。使用reload ckpt恢复中断的训练在容错机制下，如果因为硬件问题导致训练作业重启，用户可以在代码中读取预训练模型，恢复至重启前的训练状态。用户需要在代码里加上reload

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
配置Workflow参数 - AI开发平台ModelArts

参数相关的配置使用Placeholder对象来表示，以占位符的形式实现用户数据运行时配置的能力，当前支持的数据类型包括：int、str、bool、float、Enum、dict、list。开发者可根据场景需要，将节点中的相关字段（如算法超参）通过Placeholder的形式透出，支持设置默认值，供用户修改配置使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
配置Grafana数据源 - AI开发平台ModelArts

_Default”实例。图2 Prometheus_AOM_Default 从“设置”页签的“Grafana数据源配置信息”区域，获取当前Prometheus实例的Grafana数据源配置代码。在Grafana中增加数据源。登录Grafana。首次登录用户名和密码为admin，登录成功后可根据提示修改密码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标

总条数： 2006

上一页
1
...
62
63
64
...
101
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练日志失败分析 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

安装配置Grafana - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

出现“save error”错误，可以运行代码，但是无法保存 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

通过团队标注方式标注数据 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

查找Workflow工作流 - AI开发平台ModelArts

发布Workflow - AI开发平台ModelArts

Workflow高阶能力 - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线