检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS中构建新镜像的方式(二选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。
ECS中构建新镜像的方式(二选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。
指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据(可选)配置dataset_info.json文件,并将数据集存放于dataset_info
指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据(可选)配置dataset_info.json文件,并将数据集存放于dataset_info
指令监督微调/ppo:alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据(可选)配置dataset_info.json文件,并将数据集存放于dataset_info
CREATING:镜像保存中,此时Notebook不可用。 CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message String 镜像保存操作过程中,构建信息展示。
如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。 例如,集群共2个节点,每个节点都空闲了4张卡,总剩余卡数为8张卡,但用户的作业要求为1节点8张卡,因此无法调度上。 父主题: Standard专属资源池
包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量
verify的值由True改成False,如下图所示。 图6 修改self.verify参数值 Step6 保存并查看训练结果 正常运行完成训练,会显示如下内容。 图7 训练完成 精度一般问题不大,step_loss都是一个较小值。 训练过程中,训练日志会在最后的Rank节点打印。可以使用
CS中构建新镜像的方式(可二选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
ook中构建新镜像的方式(三选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
Key”:填写访问密钥的SK。 图2 填写区域和访问密钥 查看认证结果。 在Event Log区域中,当提示如下类似信息时,表示访问密钥添加成功。 16:01Validate Credential Success: The HUAWEI CLOUDcredential is valid
subnet_network_id 否 String 子网的网络ID,默认为空,当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 security_group_id 否 String 安全组,默认为
"12\"}}" } 响应示例 状态码:200 模型创建成功。 { "model_id" : "7feb7235-ed9c-48ae-9833-2876b2458445" } 状态码 状态码 描述 200 模型创建成功。 错误码 请参见错误码。 父主题: AI应用管理
JobEngine(image_url="fake_image_url"), # 自定义镜像的url,格式为:组织名/镜像名称:版本号,不需要携带相应的域名地址;如果image_url需要设置为运行态可配置,则使用如下方式:image_url=wf.Placeholder(name="image_url"
节点的状态。枚举值如下: init:初始化 wait_inputs:等待输入 pending:等待 creating:创建中 created:创建成功 create_failed:创建失败 running:运行中 stopping:停止中 stopped:停止 timeout:超时 completed:完成
黑色小猫。标签为cat,颜色为不同的标签属性。 启用团队标注 选择是否启用团队标注。图像分割暂不支持团队标注,当选择图像分割类型时,界面不显示此参数。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。
选择资源池规格 作业日志路径:选择输出日志到OBS的指定目录。 图6 选择作业日志路径 填写参数完成后,提交创建训练任务,训练完成后,作业状态会显示为已完成。 图7 训练完成 父主题: 文生图模型训练推理
构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量
结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 表2 支持的模型列表 序号 支持模型 支持模型参数量