AI开发平台ModelArts-使用ModelArts VSCode插件调试训练ResNet50图像分类模型:提交训练作业常见问题

时间:2025-02-12 15:14:03

提交训练作业常见问题

  • 报错信息:Exception: You have attempted to create more buckets than allowed

    原因分析:由于桶的数量多于限额,无法自动创建。

    解决方法:用户可以删除一个桶,或者直接指定一个已存在的桶(修改变量obs_bucket的值)。

  • 报错信息:"errorMessage":"The number of namespaces exceeds the upper limit"或"namespace is invalid"

    原因分析:SWR组织数限额,SWR组织默认最多只能创建5个组织。

    解决方法:用户可以删除一个SWR组织,或者直接指定一个已存在的SWR组织(修改变量image_organization的值)。

  • 报错信息:standard_init_linux.go:224: exec user process caused "exet format error"

    原因分析:可能由于训练规格错误导致训练作业卡死。

    解决方法:请参考说明查询资源规格。

  • 报错信息:报错镜像失败,报错:401,'Unauthorized',b'{errors":[{"errorCode":"SV CS TG.SWR.4010000",errorMessage":"Authenticate Error",……}]

    原因分析:远程连接Notebook时需要输入鉴权信息。

    解决方法:传入AK,SK信息。

    123456
    # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全;# 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。__AK = os.environ["HUAWEICLOUD_SDK_AK"]__SK = os.environ["HUAWEICLOUD_SDK_SK"]# 如果进行了加密还需要进行解密操作session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***')
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0143.html