AI开发平台MODELARTS-操作步骤:提交训练作业常见问题

时间:2024-07-13 11:26:40

提交训练作业常见问题

  • 报错信息:Exception: You have attempted to create more buckets than allowed

    原因分析:由于桶的数量多于限额,无法自动创建。

    解决方法:用户可以删除一个桶,或者直接指定一个已存在的桶(修改变量obs_bucket的值)。

  • 报错信息:"errorMessage":"The number of namespaces exceeds the upper limit"或"namespace is invalid"

    原因分析:SWR组织数限额,SWR组织默认最多只能创建5个组织。

    解决方法:用户可以删除一个SWR组织,或者直接指定一个已存在的SWR组织(修改变量image_organization的值)。

  • 报错信息:standard_init_linux.go:224: exec user process caused "exet format error"

    原因分析:可能由于训练规格错误导致训练作业卡死。

    解决方法:请参考说明查询资源规格。

  • 报错信息:报错镜像失败,报错:401,'Unauthorized',b'{errors":[{"errorCode":"SV CS TG.SWR.4010000",errorMessage":"Authenticate Error",……}]

    原因分析:远程连接Notebook时需要输入鉴权信息。

    解决方法:传入AK,SK信息。

    1
    2
    3
    4
    5
    6
    # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全;
    # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
    __AK = os.environ["HUAWEICLOUD_SDK_AK"]
    __SK = os.environ["HUAWEICLOUD_SDK_SK"]
    # 如果进行了加密还需要进行解密操作
    session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***')
    
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0151.html