AI开发平台ModelArts-使用ModelArts VSCode插件调试训练ResNet50图像分类模型:提交训练作业常见问题
提交训练作业常见问题
- 报错信息:Exception: You have attempted to create more buckets than allowed
原因分析:由于桶的数量多于限额,无法自动创建。
解决方法:用户可以删除一个桶,或者直接指定一个已存在的桶(修改变量obs_bucket的值)。
- 报错信息:"errorMessage":"The number of namespaces exceeds the upper limit"或"namespace is invalid"
原因分析:SWR组织数限额,SWR组织默认最多只能创建5个组织。
解决方法:用户可以删除一个SWR组织,或者直接指定一个已存在的SWR组织(修改变量image_organization的值)。
- 报错信息:standard_init_linux.go:224: exec user process caused "exet format error"
原因分析:可能由于训练规格错误导致训练作业卡死。
解决方法:请参考说明查询资源规格。
- 报错信息:报错镜像失败,报错:401,'Unauthorized',b'{errors":[{"errorCode":"SV CS TG.SWR.4010000",errorMessage":"Authenticate Error",……}]
原因分析:远程连接Notebook时需要输入鉴权信息。
解决方法:传入AK,SK信息。
123456
# 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全;# 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。__AK = os.environ["HUAWEICLOUD_SDK_AK"]__SK = os.environ["HUAWEICLOUD_SDK_SK"]# 如果进行了加密还需要进行解密操作session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***')
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts模型训练_模型训练简介_如何训练模型
- 华为云ModelArts_ModelArts开发_AI全流程开发
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts开发环境_开发环境简介_开发环境怎么使用
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云