搜索_华为云

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误问题现象基于TensorFlow-1.8启动训练作业，并在代码中使用“tf.gfile”模块连接OBS，启动训练作业后会频繁打印如下日志信息： Connection has been released. Continuing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
训练作业进程被kill - AI开发平台ModelArts

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
通过自定义镜像创建模型失败 - AI开发平台ModelArts

通过自定义镜像创建模型失败问题现象通过用户自定义镜像创建模型失败。原因分析可能原因如下：导入模型使用的镜像地址不合法或实际镜像不存在用户给ModelArts的委托中没有SWR相关操作权限用户为子账号，没有主账号SWR的权限使用的是非自己账号的镜像使用的镜像为公开镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象训练日志中出现AttributeError: module '***' has no attribute '***'错误。如：AttributeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效问题现象通过API接口选择自定义镜像导入创建模型，配置了运行时依赖，没有正常安装pip依赖包。原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错问题现象使用moxing适配OBS路径，然后用较高版本的pandas读取OBS文件报出如下错误： 1.‘can't decode byte xxx in position xxx’ 2.‘OSError:File isn't

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” 问题现象使用YOLOv5算法增量训练时出现如下报错：UnboundLocalError: local variable 'epoch' referenced before assignment。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败）问题现象训练启动的日志出现如下相关错误： time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

自定义镜像：如果先前基于预置框架且通过指定代码目录和启动文件的方式来创建的算法；但是随着业务逻辑的逐渐复杂，您期望可以基于预置框架修改或增加一些软件依赖的时候，此时您可以使用预置框架 + 自定义镜像的功能，即选择预置框架名称后，在预置框架版本下拉列表中选择“自定义”。此功能与直接基于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足问题现象输入输出目录不存在，报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时，报如下错误 "error_code":

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” 问题现象训练作业访问OBS时，出现如下报错： ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
系统容器异常退出 - AI开发平台ModelArts

系统容器异常退出问题现象在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败问题现象通过OBS创建模型构建失败，查看构建日志，提示pip下载包失败。如下载numpy 1.16版本失败。原因分析一般下载包失败时，可能有如下几个原因： pip源中不存在该包，当前默认pip源为pypi.org中的包，请在pypi

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配问题现象用户使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配。原因分析实例连接错误，可能是配置文件写的不规范导致连接到别的实例。解决方案检查用户.ssh配置文件（路

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
日志提示"Permission denied" - AI开发平台ModelArts

日志提示"Permission denied" 问题现象训练作业访问挂载的EFS，或者是执行.sh启动脚本时，出现如下错误： OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

nd" 图17 配置云端python解释器云端Notebook安装依赖。打开“Tool>Start SSH Section”，安装依赖软件。 # 进入MindSpore环境 source /home/ma-user/anaconda3/bin/activate MindSpore

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
服务预测失败 - AI开发平台ModelArts

服务预测失败问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XX

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志问题现象 ModelArts训练作业使用MoXing复制数据较慢。重复打印日志“INFO:root:Listing OBS”。原因分析复制数据慢的可能原因如下：直接从OBS上读数据会造成读数据变成训练的瓶颈，导致迭代缓慢。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing

总条数： 1142

上一页
1
...
52
53
54
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

通过自定义镜像创建模型失败 - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线