检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
出现ModelArts.6333错误,如何处理? 问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,Notebo
训练作业失败,返回错误码139 问题现象 训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f
使用pip install时出现“没有空间”的错误 问题现象 在Notebook实例中,使用pip install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install
保存模型时出现Unable to connect to endpoint错误 问题现象 训练作业保存模型时日志报错,具体信息如下: InternalError (see above for traceback): : Unable to connect to endpoint 原因分析
单击Notebook的打开按钮时报“请求超时”错误? 当Notebook容器因内存溢出等原因导致崩溃时,若此时单击Notebook的打开按钮时,将会出现“请求超时”错误。 该种情况下,请耐心等待容器恢复,约几十秒,再重新单击打开按钮即可。 父主题: 实例故障
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法:
connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书,且提示信息除标题外,都是乱码。选择证书后,如上图所示仍然没有反应且无法进行连接。 原因分析 当前环境未装OpenSSH或者OpenSSH未安装在默认路径下,详情请参考VS
in train_version错误 问题现象 提交训练作业时,出现xxx isn't existed in train_version错误,如下所示。 图1 xxx isn't existed in train_version错误 原因分析 出现上述错误,是因为用户通过PyCharm
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象 训练日志中出现AttributeError: module '***' has no attribute '***'错误。如:AttributeError:
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下:
restart 报错是由于CPU满了,建议切换更高规格或使用付费规格的CPU。 图1 切换规格或使用付费规格的CPU 父主题: Notebook实例常见错误
”,重新启动此Notebook,并打开Notebook。此时,Notebook仍会保留无法使用之前的所有变量空间。 父主题: 代码运行常见错误
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
规格的资源池,比如专属资源池来运行此训练代码。已经创建成功的Notebook不支持选用更高规格的资源规格进行扩容。 父主题: 代码运行常见错误
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
cvtColor(img, cv2.COLOR_BGR2RGB)) plt.title('my picture') plt.show() 父主题: 代码运行常见错误
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
日志提示“label_map.pbtxt cannot be found” 问题现象 使用目标检测算法训练时,训练作业日志运行出现如下报错:ERROR:root:label_map.pbtxt cannot be found. It will take a long time to
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。