检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置
各个模型训练前文件替换 在训练开始前,因模型权重文件可能与训练框架不匹配或有优化,因此需要针对模型的tokenizer文件进行修改或替换,不同模型的tokenizer文件修改内容如下。 falcon-11B模型 在训练开始前,针对falcon-11B模型中的tokenizer文件,
在SLB中创建负载均衡实例 负载均衡实例可以接受来自客户端的传入流量并分配给后端服务器。本章介绍如何创建负载均衡实例。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建自管理模式的SLB实例,指的是将公有云ECS作为SLB主机,
部署ABI Weblogic 12c中部署 Weblogic管理控制台访问地址:http://服务器IP:7001/console。在IE浏览器里键入该地址,进入Weblogic控制台登录页面,输入用户名和密码进行登录。 图1 部署1 登录成功后,就出现Weblogic的控制台管理界面
如何将Java或者Tomcat应用打包成压缩包用于虚拟机部署方式部署组件? 使用虚拟机部署方式部署组件时,ServiceStage支持将Java或者Tomcat应用打包成zip或者tar.gz压缩包用于部署。 应用压缩包内目录总体结构说明 Java应用压缩包示例:https://github.com
发布已定义的流程服务编排 发布流程服务编排 登录流程引擎。 在左侧导航栏中,选择“流程编排服务 > 流程服务编排”,进入“流程服务编排”页面。 在“流程服务编排”页面,您可以通过如下方式发布流程服务编排。 单个发布:在“服务状态”为“草稿”的流程服务编排所在行,单击。 图1 单个发布流程服务编排
管理禁用资产 当用户不再使用某些组件、库或桥接器时,可在AstroZero环境配置中禁用相应资产。资产禁用后,可在此处查看、启用或删除已禁用的资产。 管理禁用资产 在AstroZero服务控制台,单击“进入首页”,进入应用开发页面。 在页面左上方单击,选择“环境管理 > 环境配置”
管理页面模板 AstroZero支持用户将高级页面发布为页面模板,便于后续复用,减少重复开发,提高交付效率。在页面模板管理中,可以管理该账号下所有用户创建的高级页面模板。 管理页面模板 在AstroZero服务控制台,单击“进入首页”,进入应用开发页面。 在页面左上方单击,选择“环境管理
在Workflow中使用大数据能力(DLI/MRS) 功能介绍 该节点通过调用MRS服务,提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。 应用场景 需要使用MRS Spark组件进行大量数据的计算时,可以根据已有数据使用该节点进行训练计算。 使用案例 在华为云MRS
在JupyterLab中创建定时任务 ModelArts Notebook支持创建定时任务。本文档介绍了如何创建定时任务、一键运行Notebook文件,从而提高工作效率。 功能亮点 一键运行:允许用户一键运行Notebook文件,无需逐个执行Cell。 定时任务调度:允许用户设置定时执行代码块的时间和频率
非分离部署推理服务 本章节介绍如何使用vLLM 0.5.0框架部署并启动推理服务。 什么是非分离部署 全量推理和增量推理在同一节点上进行。 前提条件 已准备好Server环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。 安装过程需要连接互联网
使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16
非分离部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 什么是非分离部署 全量推理和增量推理在同一节点上进行。 前提条件 已准备好Server环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。 安装过程需要连接互联网
使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook
非分离部署推理服务 本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。 什么是非分离部署 全量推理和增量推理在同一节点上进行。 前提条件 已准备好Server环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。 安装过程需要连接互联网
使用AWQ量化工具转换权重 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表1。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化,量化方法为per-group。 Step1 模型量化
使用kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件
剪枝 什么是剪枝 剪枝是一种大模型压缩技术的关键技术,旨在保持推理精度的基础上,减少模型的复杂度和计算需求,以便大模型推理加速。 剪枝的一般步骤是:1、对原始模型调用不同算法进行剪枝,并保存剪枝后的模型;2、使用剪枝后的模型进行推理部署。 常用的剪枝技术包括:结构化稀疏剪枝、半结构化稀疏剪枝
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.908)