检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
达到50G,只有默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关:
日志提示“ Network is unreachable” 问题现象 在使用pytorch时,将torchvision.models中的pretrained置为了True,日志中出现如下报错: ‘OSError: [Errno 101] Network is unreachable’
足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。 cd /home/ma-user/work
训练作业访问OBS时,日志提示“stat:403 reason:Forbidden” 问题现象 训练作业访问OBS时,出现如下报错: ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
日志提示“errorMessage:The specified key does not exist” 问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified
配置了合理的服务部署超时时间,服务还是部署失败,无法启动 服务部署成功的标志是模型启动完成,如果没有配置健康检查,就无法检测到模型是否真实的启动。 在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。 因此,推荐在创建AI应用时配置健康检查,并设置合理的延迟检测时间,
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed to
导入模型提示单个模型文件超过5G限制 问题现象 在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题:
删除AI应用 功能介绍 删除AI应用,根据AI应用ID删除指定AI应用,cascade取值为true时除了删除AI应用ID指定的AI应用,还会删除其他与指定AI应用同名不同版本的AI应用;默认只删除当前AI应用ID所对应的AI应用。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
使用ModelArts时提示“权限不足”,如何解决? 当您使用ModelArts时如果提示权限不足,请您按照如下指导对相关服务和用户进行授权,并对用户权限进行检查操作。 本案例中以OBS权限不足为例,介绍如何为用户授予OBS服务权限。其它权限不足的场景也可以参考本案例操作,只是授
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下:
训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时,建议使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “Runtim
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
默认的10GB,导致作业训练失败。 实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小