搜索_华为云

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

vice 原因分析出现该问题的可能原因如下：用户的自定义镜像中无ascend_check工具，导致启动预检失败。用户的自定义镜像中的ascend相关工具不可用，导致预检失败。处理方法通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” 问题现象预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
查询Notebook实例详情 - AI开发平台ModelArts

CREATING：创建中 STARTING：启动中 STOPPING：停止中 DELETING：删除中 RUNNING：运行中 STOPPED：已停止 SNAPSHOTTING：快照中(保存镜像时的状态) CREATE_FAILED：创建失败 START_FAILED：启动失败 DELETE_FAILED：删除失败

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
启动团队标注任务 - AI开发平台ModelArts

启动团队标注任务功能介绍启动团队标注任务。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dat

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
IEF节点边缘服务部署失败 - AI开发平台ModelArts

IEF节点边缘服务部署失败问题现象部署边缘服务时，出现“异常”状态。原因分析1 部署边缘服务时，使用到IEF纳管的边缘节点，就需要用户给ModelArts的委托赋予Tenant Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业运行失败排查指导 - AI开发平台ModelArts

训练作业运行失败排查指导问题现象训练作业的“状态”出现“运行失败”的现象。原因分析及处理方法查看训练作业的“日志”，出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路问题现象使用自定义镜像训练作业时，训练失败。定位思路确定镜像来源确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像，推荐用户使用ModelArts的基础镜像构建自定义镜像，具体请参见使用ModelArts的基础镜像构建新的训练镜像。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX 请求在APIG（API网关）出现问题被拦截，报错APIG.XXXX。常见报错： APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
数据集版本发布失败 - AI开发平台ModelArts

数据集版本发布失败出现此问题时，表示数据不满足数据管理模块的要求，导致数据集发布失败，无法执行自动学习的下一步流程。请根据如下几个要求，检查您的数据，将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
启动/停止/删除实例 - AI开发平台ModelArts

Notebook”，进入Notebook管理页面。执行如下操作启动或停止Notebook。启动Notebook：单击“操作”列的“启动”。只有处于“停止”状态的Notebook可以执行启动操作。停止Notebook：单击“操作”列的“停止”。只有处于“运行中”状态的Notebook可以执行停止操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
重试/停止/运行Workflow节点 - AI开发平台ModelArts

重试/停止/继续运行Workflow节点重试当单个节点运行失败时，用户可以通过重试按钮重新执行当前节点，无需重新启动工作流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效。停止单击指定

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
模型发布失败 - AI开发平台ModelArts

模型发布失败模型发布任务提交失败和模型发布失败问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取模型ID。进入“模型管理”页面，在模型管理页面找到自动学习任务中自动创建的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。处理方法服务部署失败后，进入服务详情界面，查看服务

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
预测API的域名停用公告 - AI开发平台ModelArts

停用影响新建服务、存量服务停止后再启动、存量服务失败后再启动，会立即切换使用新域名。为保障持续提供推理服务，请您及时更新业务中的预测API的域名。如果您使用的是VPC内部节点访问ModelArts推理的在线服务，预测API切换域名后，由于内网VPC无法识别公网域名，请提交工单联系华为云技术支持打通网络。

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
pipeline应用准备 - AI开发平台ModelArts

Diffusion v1.5的onnx pipeline代码为例进行说明。进入容器环境，创建自己的工作目录。由于在Snt9B裸金属服务器环境配置指南的配置环境步骤中，在启动容器时将物理机的home目录挂载到容器的“/home_host”目录下，该目录可以直接使用上传到物理机“home”目录下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导

总条数： 1690

上一页
1
2
3
4
5
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

启动团队标注任务 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

预测API的域名停用公告 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线