AI开发平台MODELARTS-操作步骤:提交训练作业常见问题
提交训练作业常见问题
- 报错信息:Exception: You have attempted to create more buckets than allowed
原因分析:由于桶的数量多于限额,无法自动创建。
解决方法:用户可以删除一个桶,或者直接指定一个已存在的桶(修改变量obs_bucket的值)。
- 报错信息:"errorMessage":"The number of namespaces exceeds the upper limit"或"namespace is invalid"
原因分析:SWR组织数限额,SWR组织默认最多只能创建5个组织。
解决方法:用户可以删除一个SWR组织,或者直接指定一个已存在的SWR组织(修改变量image_organization的值)。
- 报错信息:standard_init_linux.go:224: exec user process caused "exet format error"
原因分析:可能由于训练规格错误导致训练作业卡死。
解决方法:请参考说明查询资源规格。
- 报错信息:报错镜像失败,报错:401,'Unauthorized',b'{errors":[{"errorCode":"SV CS TG.SWR.4010000",errorMessage":"Authenticate Error",……}]
原因分析:远程连接Notebook时需要输入鉴权信息。
解决方法:传入AK,SK信息。
1 2 3 4 5 6
# 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作 session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***')