检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
create_time Long 训练作业的创建时间。 parameter JSON Array 训练作业的运行参数。当为自定义镜像训练作业的时候,此参数为容器环境变量。具体请参见表5。 duration Long 训练作业的运行时间,单位为毫秒。 spec_id Long 训练作业资源规格ID。
镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace 否 String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 tag 否 String 镜像tag,长度限制64个字符, 支持大小写字母、数字、中划线、下划线和点。 description 否 String
填写数据集基本信息,数据集的“名称”和“描述”。 选择“标注场景”和“标注类型”,本案例中分别选择“图片”和“物体检测”。 图1 数据集标注场景和标注类型 选择OBS中的数据目录作为“数据集输入位置”,选择不同的OBS目录作为“数据集输出位置”。 图2 数据集的输入位置和输出位置 参数填写无误
rics 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 step_execution_id
谨慎配置。 (可选) 配置CES云监控和SMN消息通知使用权限。ModelArts推理部署的在线服务详情页面内有调用次数详情,单击可查看该在线服务的调用次数随时间详细分布的情况。如果想进一步通过CES云监控查看ModelArts的在线服务和对应模型负载运行状态的整体情况,需要给子账号授予CES权限。
s.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数:
sh,该命令用于git clone完整的代码包和安装必要的依赖包,每次启动训练作业时会执行该命令安装。 您可以在Notebook中导入完代码之后,在Notebook运行sh scripts/install.sh命令提前下载完整代码包和安装依赖包,然后使用保存镜像功能。后续训练作业
文档更新内容 6.3.908版本相对于6.3.907版本新增如下内容: 文档和代码中新增对mistral和mixtral模型的适配,并添加训练推荐配置。 文档准备镜像步骤中,仅提供:直接使用基础镜像方案、ECS中构建新镜像方案,删除使用Notebook创建镜像方案。 文档中新增对 llama3
节点的名称,在一个DAG中唯一,1到64位只包含中英文,数字,空格,下划线(_)和中划线(-),并且以中英文开头。 uuid String 唯一标识uuid。创建节点执行时,后台自动生成。 created_at String Execution执行的创建时间。 duration Integer Execution执行的运行时长。
Extension VSIX。 方法二:设置远端默认安装的插件 按照VS Code中设置远端默认安装的插件配置,即会在连接远端时自动安装,减少等待时间。 方法三:VS Code官网排查方式https://code.visualstudio.com/docs/remote/troubleshooting
完成数据标注 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“文本分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。
String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 created_at 否 String 创建时间。 name 否 String 执行记录名称。 execution_id
Map<String,Object> 数据集的样本统计信息,包括样本元信息的统计,json格式。 data_update_time Long 样本和标签的更新时间。 data_url String 训练所用的数据路径。 dataset_format Integer 数据集格式。可选值如下: 0:文件型
自动续费可以减少手动续费的管理成本,避免因忘记手动续费而导致ModelArts中专属资源池不能使用。自动续费的规则如下所述: 以专属资源池的到期日计算第一次自动续费日期和计费周期。 专属资源池自动续费周期以您选择的续费时长为准。例如,您选择了3个月,专属资源池即在每次到期前自动续费3个月。 在专属资源池到期前
在新版自动学习页面,单击数据标注节点的“继续运行”按钮,然后等待工作流按顺序进入训练节点即可。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“图像分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成了模型的自动训练。
际情况替换containerName参数和command参数 spec: containers: - name: my-task image: my-task-image:latest # 替换为实际使用的镜像 业务负载和自定义指标采集可以共用一个容器,也可以由S
"Action": [ "vpc:*:*", "ecs:*:get*", "ecs:*:list*" ], "Effect": "Allow"
加委托权限。FAQ 异常 镜像构建任务超时。限制超时时间为xxx分钟。 Image building task timeout. The %s-minute limit is over. imagePacker构建镜像有超时时间限制,请精简代码,提高编译效率。FAQ 正常 模型描述已更新。
Standard资源池 ModelArts支持使用ECS创建专属资源池吗? 1个节点的专属资源池,能否部署多个服务? 专属资源池购买后,中途扩容了一个节点,如何计费? 共享池和专属池的区别是什么? 如何通过ssh登录专属资源池节点? 训练任务的排队逻辑是什么? 专属资源池下的在线
了解。 确定自定义镜像大小 自定义镜像的大小推荐15GB以内,最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G,专属资源池的容器引擎空间的默认为50G,支持在创建专属资源池时自定义容器引擎空间。