搜索_华为云

下载代码目录失败 - AI开发平台ModelArts

下载代码目录失败问题现象训练作业运行时下载失败，出现如下报错，请参见图1： ERROR：modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败原因分析在创建训练作业时指定的代码目录不存在导致训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
IEF节点边缘服务部署失败 - AI开发平台ModelArts

IEF节点边缘服务部署失败问题现象部署边缘服务时，出现“异常”状态。原因分析1 部署边缘服务时，使用到IEF纳管的边缘节点，就需要用户给ModelArts的委托赋予Tenant Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
MoXing进阶用法的样例代码 - AI开发平台ModelArts

/b.txt", "w") as f: df.to_csv(f) 利用文件对象读取图片使用opencv打开一张图片时，无法传入一个OBS路径，需要利用文件对象读取，考虑以下代码是无法读取到该图片的。 1 2 import cv2 cv2.imread('obs://bucket_name/xxx

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

genrsa -out ca.key 2048 openssl req -new -x509 -days 3650 -key ca.key -out ca-crt.pem -subj "/C=CN/ST=GD/L=SZ/O=Huawei/OU=dev/CN=ca" openssl x509

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX 请求在APIG（API网关）出现问题被拦截，报错APIG.XXXX。常见报错： APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
VS Code连接开发环境失败故障处理 - AI开发平台ModelArts

Code连接开发环境失败故障处理在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，未弹出VS Code窗口在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 VS Code连接开发环境失败时的排查方法远程连接出现弹窗报错：Could

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
在推理生产环境中部署推理服务 - AI开发平台ModelArts

llm.sh及SSL证书。此处以chatglm3-6b为例。 ascend_vllm代码包在Step9 构建推理代码已生成。模型权重文件获取地址请参见表1。推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
通过自定义镜像创建模型失败 - AI开发平台ModelArts

通过自定义镜像创建模型失败问题现象通过用户自定义镜像创建模型失败。原因分析可能原因如下：导入模型使用的镜像地址不合法或实际镜像不存在用户给ModelArts的委托中没有SWR相关操作权限用户为子账号，没有主账号SWR的权限使用的是非自己账号的镜像使用的镜像为公开镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败问题现象训练作业日志运行出现如下报错：RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错No Module named XXX 问题现象服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息查询当前服务对象监控信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询Notebook实例详情 - AI开发平台ModelArts

) CREATE_FAILED：创建失败 START_FAILED：启动失败 DELETE_FAILED：删除失败 ERROR：错误 DELETED：已删除 FROZEN：冻结 token String Notebook鉴权使用的token信息。 url String 实例访问的URL。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用AWQ或SQ压缩后的模型新增版本时，权重校验失败 - AI开发平台ModelArts

使用AWQ或SQ压缩后的模型新增版本时，权重校验失败问题现象使用AWQ或SQ压缩后的模型新增版本时，开启权重校验功能，权重校验失败。原因分析平台暂不支持压缩后的模型进行权重校验。问题影响压缩后的模型无法使用权重检验。处理方法模型压缩后，不建议进行权重校验。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > MaaS
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息功能介绍查询服务监控信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/monitor

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
训练作业找不到GPU - AI开发平台ModelArts

CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ[

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态，尝试重新启动nvidia-fabricmanager失败，且提示以下信息： nvidia-fabricmanager.service failed because the control process

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1573

上一页
1
2
3
4
5
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

下载代码目录失败 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

VS Code连接开发环境失败故障处理 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

通过自定义镜像创建模型失败 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

使用AWQ或SQ压缩后的模型新增版本时，权重校验失败 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线