搜索_华为云

OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Lite Server高危操作一览表 - AI开发平台ModelArts

Server在日常操作与维护过程中涉及的高危操作，需要严格按照操作指导进行，否则可能会影响业务的正常运行。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。表1 高危操作一览表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
数据处理场景介绍 - AI开发平台ModelArts

通常，用户采集的数据或多或少都会有很多格式问题，无法被进一步处理。以图像识别为例，用户经常会从网上找一些图片用于训练，但是其质量难以保证，有可能图片的名字、路径、后缀名都不满足训练算法的要求；图片也可能有部分损坏，造成无法解码、无法被算法处理的情况。因此，数据校验非常重要，可以帮

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
通过自定义镜像创建模型失败 - AI开发平台ModelArts

通过自定义镜像创建模型失败问题现象通过用户自定义镜像创建模型失败。原因分析可能原因如下：导入模型使用的镜像地址不合法或实际镜像不存在用户给ModelArts的委托中没有SWR相关操作权限用户为子账号，没有主账号SWR的权限使用的是非自己账号的镜像使用的镜像为公开镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
预测API的域名停用公告 - AI开发平台ModelArts

新建服务、存量服务停止后再启动、存量服务失败后再启动，会立即切换使用新域名。为保障持续提供推理服务，请您及时更新业务中的预测API的域名。如果您使用的是VPC内部节点访问ModelArts推理的在线服务，预测API切换域名后，由于内网VPC无法识别公网域名，请提交工单联系华为云技术支持打通网络。

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错No Module named XXX 问题现象服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

创建模型任务下发成功，但最终模型创建失败。需要从以下几个方面进行排查：在模型详情页面，查看“事件”页签中的事件信息。根据事件信息分析模型失败原因，进行处理。如果模型状态为“构建失败”，可以在模型详情页面，查看“事件”页签中的“查看构建日志”。构建日志中有对应的构建镜像失败的详细原因，根据构建失败的原因进行排查处理。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
欠费说明 - AI开发平台ModelArts
欠费说明 - AI开发平台ModelArts

如果您在宽限期内仍未支付欠款，那么就会进入保留期，资源状态变为“已冻结”，您将无法对处于保留期的按需计费资源执行任何操作。保留期到期后，如果您仍未支付账户欠款，那么计算资源、云硬盘和对象存储都将被释放，数据无法恢复。图1 按需计费资源生命周期华为云根据客户等级定义了不同客户的宽限期和保留期时长。

帮助中心 > AI开发平台ModelArts > 计费说明
在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

解决方案字段解决方案说明 1 load failed 图片无法被解码且不能修复 ignore 系统已自动过跳过这张图片，不需要用户处理。 2 tf-decode failed 图片无法被TensorFlow解码且不能修复 ignore 系统已跳过这张图片，不需要用户处理。 3 size

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

配置参见网络规划。账号冻结导致创建失败？查看资源池失败报错信息，存在"frozen deposit fail"，表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况，账号解冻后重新购买资源。订单取消导致资源创建失败？查看资源池失败报错信息，存在"the operation

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

FailureAnalysisNotPossible 无法对未失败的作业进行失败分析请对运行失败的训练作业进行失败分析 400 ModelArts.2828 FailureAnalysisFailed 训练作业失败原因获取失败未知失败，请联系技术支持 400 ModelArts.2829

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
人工标注视频数据 - AI开发平台ModelArts

单击页面左上角“返回数据标注预览”，页面将自动返回标注作业详情页面，同时，标注好的视频将呈现在“已标注”页签下。常见问题 Q：视频数据集无法显示或者无法播放视频？ A：如果无法显示和播放视频，请检查视频格式类型，目前只支持MP4格式。父主题：通过人工标注方式标注数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
推理精度测试 - AI开发平台ModelArts

另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在 opencompass/opencompass/runners/local.py 中添加如下代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败问题现象训练作业日志运行出现如下报错：RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用CES监控Lite Server资源 - AI开发平台ModelArts

hccn_tool不可用请检查NPU驱动是否正常无法配置RoCE网卡的IP、网关重要 npu-smi不可用请检查NPU驱动是否正常无法正常使用NPU卡重要 ascend-dmi不可用请检查工具包ToolBox是否正常安装无法使用ascend-dmi进行性能分析安装CES

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
业务代码问题 - AI开发平台ModelArts

'unidecode'” 分布式Tensorflow无法使用“tf.variable” MXNet创建kvstore时程序被阻塞，无报错日志出现ECC错误，导致训练作业失败超过最大递归深度导致训练作业失败使用预置算法训练时，训练失败，报“bndbox”错误训练作业进程异常退出训练作业进程被kill

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
Lite Cluster - AI开发平台ModelArts
Lite Cluster - AI开发平台ModelArts

Lite Cluster 资源池创建失败的原因与解决方法？ Cluster资源池节点故障如何定位特权池信息数据显示均为0%如何解决？重置节点后无法正常使用？

帮助中心 > AI开发平台ModelArts > 故障排除
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 965

上一页
1
...
7
8
9
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OOM导致训练作业失败 - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

数据处理场景介绍 - AI开发平台ModelArts

通过自定义镜像创建模型失败 - AI开发平台ModelArts

预测API的域名停用公告 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

欠费说明 - AI开发平台ModelArts

在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

人工标注视频数据 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

Lite Cluster - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线