检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Server适配PyTorch NPU训练微调指导(6.3.912) 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展LLaVA-NeXT模型的训练过程,包括pretrain_clip训练和Finetune_onevision训练。
序号 功能名称 功能描述 阶段 相关文档 1 Notebook连接大数据服务特性 介绍如何将ModelArts Notebook开发环境与华为云大数据服务DLI中的Spark引擎相连接,让数据工程师能便捷地使用Notebook进行大数据开发,以及如何在DataArts Studio
是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 labels 否 Array of Label
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
在使用MaaS服务时,需要先完成OBS桶、资源池等准备工作。 准备OBS桶 在ModelArts Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。
如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。 大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。 出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。 父主题: 实例故障
Flux是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展Flux模型的训练过程,包括基于kohya的Finetune训练和基于ai-toolkit的Lora训练。
直接从一台计算机的内存传输到另一台计算机。 RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。 IB:InfiniBand (IB) 是一种高性能计算机网络通信协议,专为高性能计算和数据中心互连设计。
Lite推理指导(6.3.910) 方案概览 本方案介绍了在ModelArts的Lite Server上使用昇腾Atlas 300I Duo推理卡计算资源,部署Bert-base-chinese模型推理的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买Lite Server资源。
* 60 * 1000)计算开始时间 endTimeInMillis: 查询的结束时间,格式为UTC毫秒,如果指定为-1,服务端将按(startTimeInMillis + durationInMinutes * 60 * 1000)计算结束时间,如果计算出的结束时间大于当前系统时间,则使用当前系统时间
# 批量任务输入数据的OBS路径,如:"/your_obs_bucket/src_path" dest_path="/shp-cn4/data-out/", # 批量任务输出结果的OBS路径,如:"/your_obs_bucket/dest_path"
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
创建自动学习后,将会进行模型的训练,得到预测分析的模型。模型部署步骤将使用预测模型发布在线预测服务。 操作步骤 在新版自动学习页面,单击创建成功的项目名称,查看当前工作流的执行情况。 在“预测分析”节点中,待节点状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可
Server适配PyTorch NPU训练指导(6.3.912) 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展InternVL2-8B, InternVL2-26B和InternVL2-40B模型的训练过程,包括Finetune训练和LoRA训练。
Server适配Pytorch NPU训练微调指导(6.3.912) 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展Llama 3.2-Vision-11B模型的训练过程,包括finetune full训练和LoRA训练。
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景,可以定位模型训练中的精度问题。 精度预检工具旨在计算单个API在整网计算中和标杆场景下的差异,对于无明确精度差异来源情况或者对模型了解不多的情形下都推荐使用预检工具,检查第一个步骤或Loss明显出现问
本文基于diffusers和comfyui两个框架进行适配。 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展SD3.5模型的推理过程。 资源规格要求 推荐使用“西南-贵阳一”Region上的Server资源和Ascend
以上的分类,每种分类的音频数不少于5个。 操作步骤 在开始训练之前,需要完成数据标注,然后再开始模型的自动训练。 在新版自动学习页面,单击项目名称进入运行总览页面,单击数据标注节点的“实例详情”进入数据标注页面,完成数据标注。 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。
上的标签),每种分类的文本数不少于20个。因此在单击“继续运行”按钮之前,请确保已标注的文本符合要求。 操作步骤 在新版自动学习页面,单击项目名称进入运行总览,单击“数据标注”节点的“实例详情”进入“数据标注”页面,完成数据标注。 图1 完成数据标注 返回新版自动学习页面,单击数