检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量
黑色小猫。标签为cat,颜色为不同的标签属性。 启用团队标注 选择是否启用团队标注。图像分割暂不支持团队标注,当选择图像分割类型时,界面不显示此参数。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。
构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量
subnet_network_id 否 String 子网的网络ID,默认为空,当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 security_group_id 否 String 安全组,默认为
表示算法所依赖的引擎,使用3记录的“engine_name”和“engine_version”。 返回状态码“200 OK”,表示创建算法成功,响应Body如下所示: { "metadata": { "id": "01c399ae-8593-4ef5-9e4d-085950aacde1"
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoint机制实现。check
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。check
在Notebook中使用自定义镜像创建Notebook并调试,调试成功后,保存镜像。 在Notebook中使用自定义镜像创建Notebook操作请参见基于自定义镜像创建Notebook实例。 保存Notebook镜像操作请参见保存Notebook镜像环境。 已有的镜像调试成功后,再使用ModelArts训练模块训练作业。
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。check
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。check
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。check
节点的状态。枚举值如下: init:初始化 wait_inputs:等待输入 pending:等待 creating:创建中 created:创建成功 create_failed:创建失败 running:运行中 stopping:停止中 stopped:停止 timeout:超时 completed:完成
选择资源池规格 作业日志路径:选择输出日志到OBS的指定目录。 图6 选择作业日志路径 填写参数完成后,提交创建训练任务,训练完成后,作业状态会显示为已完成。 图7 训练完成 父主题: AIGC模型训练推理
verify的值由True改成False,如下图所示。 图6 修改self.verify参数值 Step6 保存并查看训练结果 正常运行完成训练,会显示如下内容。 图7 训练完成 精度一般问题不大,step_loss都是一个较小值。 训练过程中,训练日志会在最后的Rank节点打印。可以使用
元/小时)。按照计算资源费用、存储费用结算,那么运行这个自动学习作业的费用计算过程如下: 创建自动学习项目时,无法直接选择专属资源池。可在项目创建成功后,进入自动学习详情页,然后单击右上角“配置”,在“Workflow配置 > 资源配置”中,选择使用专属资源池。 存储费用:自动学习作业的
√ √ Qwen1.5-7B √ √ Qwen2-72B √ x Qwen2-72B-1K √ x 前提条件 在“我的模型”页面存在已创建成功的模型。 已准备好用于存放压缩后模型权重文件的OBS桶,OBS桶必须和MaaS服务在同一个Region下。 创建压缩任务 登录ModelArts管理控制台。
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoint机制实现。check
节点的状态。枚举值如下: init:初始化 wait_inputs:等待输入 pending:等待 creating:创建中 created:创建成功 create_failed:创建失败 running:运行中 stopping:停止中 stopped:停止 timeout:超时 completed:完成
--log-startup --disable-safe-unpickle --skip-prepare-environment --api 启动成功后,打印如下信息。 图2 启动成功 使用http://{宿主机ip}:8183 可以访问前端页面,通过输入文字生成图片。 图3 文生图 注意开启fa优化按钮。
Admin”。单击“下一步”。 SWR的权限有SWR FullAccess、SWR OperateAccess、SWR ReadOnlyAccess。但SWR FullAccess、SWR OperateAccess、SWR ReadOnlyAccess仅限容器镜像服务企业版使用,目前企业版