AI开发平台MODELARTS-使用MaaS压缩模型:场景描述

时间:2024-12-16 10:58:36

场景描述

模型压缩是指将高比特浮点数映射到低比特量化空间,从而减少显存占用的资源,降低推理服务时延,提高推理服务吞吐量,并同时减少模型的精度损失。模型压缩适用于追求更高的推理服务性能、低成本部署以及可接受一定精度损失的场景。

ModelArts Studio大模型即服务平台当前支持SmoothQuant-W8A8和AWQ-W4A16两种压缩策略。
表1 压缩策略的适用场景

压缩策略

场景

SmoothQuant-W8A8

  • 长序列的场景
  • 大并发量的场景

AWQ-W4A16

  • 小并发量的低时延场景
  • 更少推理卡数部署的场景
support.huaweicloud.com/usermanual-maas-modelarts/maas-modelarts-0009.html