检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导(6.3.912) 本文档主要介绍如何在ModelArts Lite的Server环境中,使用NPU卡对MiniCPM-V2.6进行LoRA微调及SFT微调。本文档中提供的训练脚本,是基于原生Mi
自动学习训练作业失败 自动学习训练作业创建失败,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 自动学习训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败,排查方式如下: 首次出现请检查您的账户是
自定义镜像使用场景 在AI业务开发以及运行的过程中,一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题,在ModelArts的AI开发最佳实践中,通过容器镜像的方式将运行环境进行固化,以这种方式不仅能够进行依赖管理,而且可以方便的完成工作环境切换
发布免费算法 在AI Gallery中,您可以将个人开发的算法免费分享给他人使用。 前提条件 在ModelArts的算法管理中已准备好待发布的算法。创建算法的相关操作请参见创建算法。 创建算法时,算法代码存储的OBS桶内不能存在文件和文件夹重名的情况,这样算法可能会发布失败。如果算法发布成功,则代码开放会失败。
准备BF16权重 本章节介绍BF16权重转换操作。 BF16获取权重有2种方式: 方式一:直接获取HuggingFace社区已经转换完成的BF16权重。 方式二:基于DeepSeek官网提供的FP8权重转换为BF16权重。 方式一提供的权重是开发者在社区贡献的权重,如果是用于生产
部署在线服务 部署在线服务包括: 已部署为在线服务的初始化。 部署在线服务predictor。 部署批量服务transformer。 部署服务返回服务对象Predictor,其属性包括服务管理章节下的所有功能。 示例代码 在ModelArts notebook平台,Session
示例:从 0 到 1 制作自定义镜像并用于训练(MPI+CPU/GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MPI,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux
发布免费模型 在AI Gallery中,您可以个人开发的模型免费分享给他人使用,包括ModelArts模型和HiLens技能。 前提条件 如果是发布ModelArts模型,已经在ModelArts的“AI应用管理”中准备好待发布的模型。在“AI应用管理”界面创建或发布模型的相关操
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
准备镜像 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr
训练迁移快速入门案例 本篇指导是迁移的总体思路介绍,便于用户对迁移过程有一个整体的认识。如果您希望通过具体案例直接实操,请参考《主流开源大模型基于DevServer适配PyTorch NPU训练指导》。该案例以ChatGLM-6B为例,介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
发布Workflow到ModelArts 发布Workflow到ModelArts有两种方式,这两种方式的区别在发布Workflow至运行态后,需要在Workflow页面配置输入输出等参数;而发布Workflow至运行态并运行通过对代码进行改造,用户直接在SDK侧发布并运行工作流,节省了前往控制台进行配置运行的操作。
开发环境的应用示例 本节通过调用一系列API,以创建开发环境实例为例介绍ModelArts API的使用流程。 概述 创建开发环境实例的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调用查询支持的镜像列表接口查看开发环境的镜像类型和版本。
管理标注数据 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“全部”、“未标注”或“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象:
SDXL基于Standard适配PyTorch NPU的LoRA训练指导(6.3.908) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL LoRA是指在已经训练好的SDXL模型基础上,使用新的数据集进行LoRA微调。
SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL Finetune是指在已经训练好的SDXL模型基础上
IAM 介绍ModelArts所有功能涉及到的IAM权限配置。 IAM权限简介 如果您需要为企业中的员工设置不同的权限访问ModelArts资源,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)进
以PyTorch框架创建训练作业(新版训练) 本节通过调用一系列API,以训练模型为例介绍ModelArts API的使用流程。 概述 使用PyTorch框架创建训练作业的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调
更新开发环境实例信息 功能介绍 该接口用于更新开发环境实例的描述信息或自动停止信息。 URI PUT /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id