搜索_华为云

推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化使用llm-compressor工具量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

本章节介绍如何使用opencompass工具开展语言模型的推理精度测试，数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证，不适用于多模态模型的精度验证。多模态模型的精度验证，建议

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
推理场景介绍 - AI开发平台ModelArts

Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
推理场景介绍 - AI开发平台ModelArts

不同软件版本对应的基础镜像地址不同，请严格按照软件版本和镜像配套关系获取基础镜像。支持的模型列表和权重文件本方案支持vLLM的v0.3.2版本。不同vLLM版本支持的模型列表有差异，具体如表3所示。表3 支持的模型列表和权重获取地址序号模型名称支持vLLM v0.3.2 开源权重获取地址 1 llama-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
扩缩容模型服务实例数 - AI开发平台ModelArts

扩缩容模型服务实例数在使用大型模型进行推理时，其业务需求会呈现出明显的峰谷波动。因此，模型服务必须具备灵活的扩缩容能力，以适应不同时间段内的用户负载变化，确保服务的高可用性和资源的高效利用。 ModelArts Studio大模型即服务平台支持手动扩缩容模型服务的实例数，该操作不会影响部署服务的正常运行。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优，使语言模型更好地遵循指令。预训练使用的Alpaca数据集下载：https://huggingface.co/datasets/tats

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化使用llm-compressor工具量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
准备模型训练镜像 - AI开发平台ModelArts

安装软件包。具体案例参考使用预置镜像制作自定义镜像用于训练模型。场景二：已有本地镜像满足代码依赖的要求，但是不满足ModelArts训练平台约束，需要适配。具体案例参考已有镜像迁移至ModelArts用于训练模型。场景三：当前无可使用的镜像，需要从0制作镜像（既需要安装

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用GPTQ量化 - AI开发平台ModelArts

q_config) 您还可以使用save_pretrain()方法在本地保存您的量化模型。如果模型是用device_map参数量化的，请确保在保存之前将整个模型移动到GPU或CPU。例如，要将模型保存在CPU上。 quantized_model.save_pretrained("CodeLlama-34b-hf")

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
推理场景介绍 - AI开发平台ModelArts

Cluster上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理模型量化 - AI开发平台ModelArts

推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化使用llm-compressor工具量化父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
推理场景介绍 - AI开发平台ModelArts

DevServer上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
推理场景介绍 - AI开发平台ModelArts

说明请参见模型软件包结构说明。获取路径：Support-E 说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的模型列表和权重文件本方案支持vLLM的v0.4.2版本。不同vLLM版本支持的模型列表有差异，具体如表3所示。表3 支持的模型列表和权重获取地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
使用AWQ量化 - AI开发平台ModelArts

AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化

总条数： 1902

上一页
1
...
8
9
10
...
96
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理模型量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

扩缩容模型服务实例数 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

使用GPTQ量化 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

推理模型量化 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线