检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/pile-val", split="validation") 运行“examples/quantize.py”文件进行模型量化,量化时间和模型大小有关,预计30分钟~3小时。 pip install transformers sentencepiece #安装量化工具依赖 export
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2.myhuaweicloud
AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel
/pile-val", split="validation") 运行“examples/quantize.py”文件进行模型量化,量化时间和模型大小有关,预计30分钟~3小时。 pip install transformers sentencepiece #安装量化工具依赖 export
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
-20-21-19”。难例原因ID可选值如下: 0:未识别出任何目标物体。 1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。 5:图像的分辨率与训练数据集的特征分布存在较大偏移。 6
Snt9B开展Flux模型的训练过程,包括基于kohya的Fintune训练和基于ai-toolkit的Lora训练。 约束限制 本方案目前仅适用于企业客户。 本文档适配昇腾云ModelArts 6.3.911版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
-api 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务编号,可通过查询服务列表获取。 请求参数 表2 请求Header参数 参数 是否必选 参数类型
使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。 本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
界面。 在创建自动学习项目页面,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已
在创建自动学习项目页面,计费模式默认“按需计费”,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已
在创建自动学习项目页面,计费模式默认“按需计费”,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已
本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 适配的CANN版本是cann_8.0