正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
cvtColor(img, cv2.COLOR_BGR2RGB)) plt.title('my picture') plt.show() 父主题: 代码运行常见错误
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。 父主题: 模型训练
解决方法 可以在Notebook中转换文件格式为Linux格式。 shell语言: dos2unix 文件名 父主题: 代码运行常见错误
日志提示“label_map.pbtxt cannot be found” 问题现象 使用目标检测算法训练时,训练作业日志运行出现如下报错:ERROR:root:label_map.pbtxt cannot be found. It will take a long time to
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。
日志提示“no socket interface found” 问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误: job0879f61e-jo
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未
日志提示“ValueError: label_map not match” 问题现象 日志提示“ValueError: label_map not match”,且打印出标签数据,如: ValueError: label_map not match. {1:'apple', 2:'orange'
了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至OBS桶或者容器./work目录下。 父主题: Notebook实例常见错误
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError:
日志提示“Please upgrade numpy to >= xxx to use this pandas version” 问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version
调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 OBS服务相关报错可根据错误信息(包括errorCode、err
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象 训练作业失败,日志报出如下错误: RuntimeError: cuda runtime error (10) : invalid device ordinal
日志提示“Unexpected keyword argument passed to optimizer” 问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed