检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts的Notebook中使用MoXing时,如何进行增量训练? 在使用MoXing构建模型时,如果您对前一次训练结果不满意,可以在更改部分数据和标注信息后,进行增量训练。 “mox.run”添加增量训练参数 在完成标注数据或数据集的修改后,您可以在“mox.run
在ModelArts自动学习中,如何进行增量训练? 在自动学习项目中,每训练一次,将自动产生一个训练版本。当前一次的训练结果不满意时(如对训练精度不满意),您可以适当增加高质量的数据,或者增减标签,然后再次进行训练。 增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。
请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 响应参数 状态码:200 表3 响应Body参数
录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 映射规则:当前不支持CPU配置cache盘;GPU与昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。 表1
议使用SFS存放数据,SFS支持扩容。 GPU规格的资源 表1 GPU cache目录容量 GPU规格 cache目录容量 GP Vnt1 800G 8*GP Vnt1 3T GP Pnt1 800G CPU规格的资源 表2 CPU cache目录容量 CPU规格 cache目录容量
ECS中上传新镜像 Step1 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR:
ECS中上传新镜像 Step1 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下列示例命令将Standard镜像上传至SWR:
获取APP列表 功能介绍 获取APIG APP基本信息列表,用户只能获取自己创建的APP信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{pr
GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。 当前开发环境的Cache盘使用时,没有容量告警,在使用时很容易超过限制,并直接重启Notebook实例。重启后多种配置重置,会导致
如果第二次增量训练的epochs数值和第一次常规训练的epochs数值设置一样,则会报错。 如果第二次增量训练的epochs数值小于第一次常规训练的epochs数值,则增量训练会出现少训练一个epoch的现象。 处理方法 第二次增量训练设置的epochs数值需要大于第一次常规训练设置的epochs数值。
镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时,cloud-init根据残留目录(含实例ID)判断已经执行过一次,进而不会再执行user-data里面的脚本。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
源池名称,进入资源池详情。 单击左侧“配置管理”,进入资源池配置管理页面。 图1 配置管理 在镜像预热中单击编辑图标,填写镜像预热信息。 表1 镜像预热参数 参数名称 说明 镜像来源 可选择“预置”或“自定义”的镜像。 预置:可选择SWR服务上自有的或他人共享的镜像。 自定义:可直接填写镜像地址。
成本。 成本分析 通过华为云费用账单来分析账号下的成本支出情况。 成本优化 长期使用的资源,建议客户使用更优惠的方式购买(包年包月);针对临时使用的资源,您可选择按需的资源规格,避免浪费。
否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token 表3 请求Body参数 参数 是否必选 参数类型 描述 app_name
在“创建算法”页面中,会自动填充上一次训练作业的算法参数配置,您可以根据业务需求在原来算法配置基础上进行修改。 订阅算法不支持另存为算法。 重建训练作业 当对创建的训练作业不满意时,您可以单击操作列的重建,重新创建训练作业。在重创训练作业页面,会自动填入上一次训练作业设置的参数,您仅需在
使用场景 特点 挂载操作参考 EmptyDir 适用于训练缓存场景。 Kubernetes的临时存储卷,临时卷会遵从Pod的生命周期,与Pod一起创建和删除。 使用临时存储路径 HostPath 适用于以下场景: 容器工作负载程序生成的日志文件需要永久保存。 需要访问宿主机上Docker引擎内部数据结构的容器工作负载。
在当前安全组的入方向规则中添加一条规则,基本协议选择ICMP协议,详细配置如下表所示,添加规则步骤请参考添加安全组规则。 表1 入方向规则 方向 协议/应用 端口 源地址 入方向 ICMP 全部 0.0.0.0/0 华为云安全组支持的协议参考可参考下表。 表2 入方向规则 协议 端口 说明 协议 端口 说明
行调优。请注意AOE只适合静态shape的模型调优。在AOE调优时,容易受当前缓存的一些影响,建议分两次进行操作,以达到较好的优化效果(第一次执行生成AOE的知识库,在第二次使用时可以复用)。在该场景中,AOE对text_encoder等模型提升效果不大,性能主要瓶颈点在unet
一起,一次交由LLM进行验证。 如下图所示,在投机模式下,先由小模型依次推理出token 1、2、3,并将这3个token一次性输入大模型LLM推理,得到1'、2'、3'、4',将1、2、3与1'、2'、3'依次校验,即可用三次小模型推理(相较于大模型,耗时极短),以及一次大模型