检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
推理精度测试 本章节介绍如何进行推理精度测试。 Step1 准备数据集 精度测试需要数据集进行测试。推荐公共数据集mmlu和ceval。下载地址: 表1 精度测试数据集 数据集名称 下载地址 下载说明 mmlu https://huggingface.co/datasets/cais/mmlu
Lite Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像,您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情 镜像名称:ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情
设置微服务引擎备份与恢复 ServiceStage控制台提供备份与恢复功能,可对微服务引擎的数据,包括微服务、契约、配置、账号角色信息进行备份与恢复。 您可自定义备份策略,对微服务引擎进行定期备份,也支持手动对微服务引擎进行备份。 约束与限制 每个微服务引擎专享版最多有15个成功
系统管理概述 同一个微服务引擎可能会有多个用户共同使用,而不同的用户根据其责任和权限,需要具备不同的微服务引擎访问和操作权限。 开启了“安全认证”的微服务引擎专享版,通过微服务控制台提供了基于RBAC(Role-Based Access Control,基于角色的访问控制)的系统管理功能。
解绑LTS日志组 已关联的LTS日志组如果不再使用,可以解绑。 前提条件 组件已关联LTS日志组,请参考关联LTS日志组。 解绑LTS日志组 登录ServiceStage控制台。 选择以下任意方式进入组件“日志”页面: 在“应用管理”页面,单击组件所属应用名称,在“组件列表”单击待操作组件名称,在左侧导航栏选择“运维
配置泳道组流量入口网关路由(基于内容配置) 根据实际业务需要,您可以基于内容配置泳道组流量入口网关路由。 使用限制 仅灰度泳道支持基于内容配置网关路由。 前提条件 待操作泳道组已创建成功并关联流量入口网关,请参考创建泳道组。 待操作泳道组下已创建灰度泳道,请参考创建灰度泳道。 配
创建弹性伸缩-HPA策略 弹性伸缩-HPA(Horizontal Pod Autoscaling)是Kubernetes内置组件,实现Pod水平自动伸缩的功能。在Kubernetes社区HPA功能的基础上,增加了应用级别的冷却时间窗和扩缩容阈值等功能。 使用限制 组件必须为容器部
修改弹性伸缩-HPA策略 您可以根据实际业务需要,编辑已设置好的弹性伸缩-HPA策略,重新设置策略参数。 前提条件 已设置组件弹性伸缩-HPA策略,请参考创建弹性伸缩-HPA策略。 修改弹性伸缩-HPA策略 登录ServiceStage控制台。 选择以下任意方式进入组件“伸缩”页面:
Permission denied: '/opt/huawei/release/lf_test/SLB/ 问题现象 SLB部署失败,日志详细信息提示如下: [Errno 13] Permission denied: '/opt/huawei/release/lf_test/SLB/'
不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 不是同一个主账号,用户A需要使用用户B的自定义镜像创建Notebook,此时需要用户B将此镜像共享给用户A,用户A将此共享镜像Pull下来注册后方可在Notebook中使用。详细操作如下: 用户B的操作: 登录容
GPU A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
准备预测分析数据 使用ModelArts自动学习构建预测分析模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域,例如OBS桶区域为“北京四”时,必须保证ModelArts管理控制台区域也在“北京四”区域,否则会导致无法获取到相关数据。 数据集要求
VS Code一键连接Notebook 视频介绍 前提条件 已经创建Notebook实例 ,实例已经开启SSH连接,实例状态为运行中。 请参考创建Notebook实例。 实例的密钥文件已经下载至本地的如下目录或其子目录中: Windows:C:\Users\{{user}} Mac/Linux:
访问在线服务支持的认证方式 通过Token认证的方式访问在线服务 通过AK/SK认证的方式访问在线服务 通过APP认证的方式访问在线服务 父主题: 将模型部署为实时推理作业
发布Workflow到ModelArts 发布Workflow到ModelArts有两种方式,这两种方式的区别在发布Workflow至运行态后,需要在Workflow页面配置输入输出等参数;而发布Workflow至运行态并运行通过对代码进行改造,用户直接在SDK侧发布并运行工作流,节省了前往控制台进行配置运行的操作。
管理Lite Cluster资源池的游离节点 如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。
场景介绍 方案概览 本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Server上的不同训练阶段方案,包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
训练脚本说明 训练启动脚本说明和参数配置 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)