搜索_华为云

IEF节点边缘服务部署失败 - AI开发平台ModelArts

问题现象部署边缘服务时，出现“异常”状态。原因分析1 部署边缘服务时，使用到IEF纳管的边缘节点，就需要用户给ModelArts的委托赋予Tenant Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1 在ModelArts管理控制台，选择“权限管理”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

939 callbacks suppressed"。原因分析根据SFS客户端日志分析出现问题的时间点发现，SFS盘连接的客户端个数较多，在问题的时间点并发读取数据，I/O超高；当前SFS服务端的机制是：当SFS盘的性能到上限时，就会IO排队。IO排队造成处理时间超过 1 分

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Method Not Allowed - AI开发平台ModelArts

Method Not Allowed 问题现象服务预测报错：Method Not Allowed 原因分析服务预测默认注册的API需要使用POST方法调用。如您使用了GET方法，APIG（API网关）将会拦截请求。处理方法使用POST方法调用。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
自动学习训练作业失败 - AI开发平台ModelArts

目前物体检测仅支持矩形标注框。请确保所有图片的标注框为矩形框。如果使用非矩形框，可能存在以下报错： Error bandbox. 针对其他类型的项目（图像分类、声音分类等），无需关注此问题。预测分析作业失败的排查思路检查用于预测分析的数据是否满足要求。由于预测分析任务未使用数据管理的功能发布数据集，

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
精度对齐 - AI开发平台ModelArts
精度对齐 - AI开发平台ModelArts

精度对齐长训Loss比对结果使用Msprobe工具分析偏差 Loss对齐结果父主题： Dit模型PyTorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据，AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”，用户可以基于业务需要选择任务所需的资源卡数。在“运行时长控制”选择是否指定运行时长。不限时长：不限制作业的运行时长，AI Ga

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优 Profiling数据采集使用Advisor工具分析生成调优建议调优前后性能对比父主题： Dit模型PyTorch迁移与精度性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的，如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。处理方法了解ModelArts依赖的OBS权限自定义策略，请参见ModelArts依赖的OBS权限自定义策略样例。在统一身份认证服

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配问题现象用户使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配。原因分析实例连接错误，可能是配置文件写的不规范导致连接到别的实例。解决方案检查用户.ssh配置文件（路

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理。大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？问题现象原因分析可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。解决方法用户重新进行申请SSH权限。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
数据准备与处理 - AI开发平台ModelArts

导入数据到ModelArts数据集处理ModelArts数据集中的数据标注ModelArts数据集中的数据发布ModelArts数据集中的数据版本分析ModelArts数据集中的数据特征导出ModelArts数据集中的数据入门案例：快速创建一个物体检测的数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
使用VSCode-huawei，报错：卸载了‘ms-vscode-remote.remot-sdh’，它被报告存在问题 - AI开发平台ModelArts

remot-sdh’，它被报告存在问题问题现象使用华为自研的VS Code软件时，报错“卸载了‘ms-vscode-remote.remot-sdh’，它被报告存在问题”。原因分析 Remote - SSH只能在开源的VSCode软件中使用。解决方案推荐使用开源VS Code软件。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如果超过最大递归深度，建议您在启动文件中增大递归调用深度，具体操作如下： import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

46212 ) is killed by signal: Killed BP。原因分析由于batch size过大，导致Dataloader进程退出。处理方法请调小batch size的数值。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

Please install mmcv>=1.3.1, <=1.5.0。原因分析 MMCV的依赖与PyTorch版本不匹配。处理方法可参考链接的内容，根据PyTorch和CUDA版本安装对应版本的MMCV。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

userdata机制拉取cce-agent，但是在服务器上查看没有拉cce-agent的动作，理论上该动作是cloudinit中的脚本在创建时自动执行的，可能是由于安装脚本没有注入userdata或者注入了但未执行。经查看是由于userdata未执行，可能原因为服务器A制作镜像时没有清理残留目录导致，即：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

4进行训练报错：TypeError: unhashable type: ‘list’。原因分析可能由于使用了多标签分类导致（即一个图片用了1个以上的标签）。处理方法使用单标签分类的数据集进行训练。父主题：数据集问题导致训练失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用订阅算法训练结束后没有显示模型评估结果 - AI开发平台ModelArts

使用订阅算法训练结束后没有显示模型评估结果问题现象 AI Gallery中的YOLOv5算法，训练结束后没有显示模型评估结果。原因分析未标注的图片过多，导致没有模型评估结果。处理方法对所有训练数据进行标注。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障

总条数： 2312

上一页
1
...
5
6
7
...
116
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

IEF节点边缘服务部署失败 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

Method Not Allowed - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

精度对齐 - AI开发平台ModelArts

将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

数据准备与处理 - AI开发平台ModelArts

使用VSCode-huawei，报错：卸载了‘ms-vscode-remote.remot-sdh’，它被报告存在问题 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

训练作业训练失败报错：TypeError: unhashable type: ‘list’ - AI开发平台ModelArts

使用订阅算法训练结束后没有显示模型评估结果 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线