检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
527-41b8-971c-eca55e513254-worker-0.log 单机训练作业只会生成一个日志文件,单机作业的task id默认为worker-0。 分布式场景下有多个节点日志文件并存,通过task id区分不同节点,例如:worker-0,worker-1等。 训
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、下划线(_)、中划线(-)和(.)。 描述 模型简介。支持100字符。 权重设置与词表 默认选择“使用推荐权重”,支持选择“自定义权重”。 “使用推荐权重”:使用平台推荐的权重文件,可提高模型的训练、压缩、部署和调优等服务的使用效率。
名称 模型名称。支持1~64位可见字符(含中文),名称可以包含字母、中文、数字、中划线、下划线。 版本 设置所创建模型的版本。第一次导入时,默认为0.0.1。 说明: 模型创建完成后,可以通过创建新版本,导入不同的元模型进行调优。 描述 模型的简要描述。 填写元模型来源及其相关参数
t" } 表1 字段说明 字段 是否必选 说明 source 是 被标注对象的URI。数据来源的类型及示例请参考表2。 usage 否 默认为空,取值范围: TRAIN:指明该对象用于训练。 EVAL:指明该对象用于评估。 TEST:指明该对象用于测试。 INFERENCE:指明该对象用于推理。
Query参数 参数 是否必选 参数类型 描述 node_id 否 String 待查询的边缘节点ID,仅当infer_type为edge时可指定,默认查询所有节点。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户To
是否按照升序排序。 offset 否 String 分页查询,起始位置。 limit 否 Integer 单页查询最大数量,值为空或者0时默认为500,最大值为500。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 apiVersion String
开通自动续费后,还可以手动续费该专属资源池。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 更多关于自动续费的规则介绍请参见自动续费规则说明。 前提条件 请确认包年/包月专属资源池还未到期。
“数据来源”:“OBS” “导入方式”:“目录”。 “导入路径”:数据存储的OBS路径。 “数据标注状态”:已标注。 “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。 如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选
Apps objects app列表。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表4 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。
启动MindInsight 在开发环境的JupyterLab中打开MindInsight。 单击,直接进入MindInsight可视化界面。 默认读取路径/home/ma-user/work/ 当存在两个以及以上工程的log时,界面如下。通过Runs下选择查看相对应的log。 图1 MindInsight界面(2)
uts/train_url_0" train_url = args.train_url # 判断输出路径中是否有模型文件。如果无文件则默认从头训练,如果有模型文件,则加载epoch值最大的ckpt文件当做预训练模型。 if os.listdir(train_url):
当计费模式为包周期时该参数必传。 os.modelarts/auto.renew 否 String 是否自动续费.可选值如下: 0:不自动续费,默认值 1:自动续费 os.modelarts/promotion.info 否 String 用户在运营平台选择的折扣信息。 os.modelarts/service
”,其他类型任务均设为“false”或不设。可选值如下: true:创建任务时同步创建一个任务版本 false:创建任务时不创建任务版本(默认值) data_source 否 ProcessorDataSource object 数据来源,与inputs二选一。数据源路径不支持设置为KMS加密桶中的OBS路径。
ZeRO-3-Offload,配置以下参数 deepspeed: examples/deepspeed/ds_z3_offload_config.json 否,默认选用Accelerate加速深度学习训练框架,注释掉deepspeed参数。 是否开启NPU FlashAttention融合算子,具体约
进入OBS管理控制台,选择当前自动学习项目使用的OBS桶,单击桶名称进入概览页。 确保此OBS桶的加密功能关闭。如果此OBS桶为加密桶,可单击“默认加密”选项进行修改。 图1 OBS桶是否加密 确保归档数据直读功能关闭 进入OBS管理控制台,选择当前自动学习项目使用的OBS桶,单击桶名称进入概览页。
sh脚本没有执行权限,可以在自定义脚本启动前执行"chmod +x xxx.sh"添加可执行权限。 ModelArts控制台上创建训练作业自定义镜像入口,默认以1000 uid用户来启动v2容器镜像,将ma-user的uid从1102改为1000,改变方式如下(假若需要sudo权限,可取消sudoers行的注释):
格。 图2 报错信息 ECS、EVS配额不足,导致创建失败? 集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额。 图3 报错信息(1) 图4 报错信息(2) 资源售罄或容量不足,导致创建失败?
Apps objects app列表。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表4 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。
图1 Notebook中选择自定义镜像与规格 存储配置选择“弹性文件服务SFS”,并且选择已创建的SFS Turbo实例,子目录挂载可选择默认不填写。 如果该SFS Turbo多人共用,则推荐用户编辑“子目录挂载”,创建自己的子目录进行划分。 图2 Notebook中选择弹性文件服务
tils.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: