AI开发平台MODELARTS-使用MaaS压缩模型:场景描述

时间：2024-12-16 10:58:36

AI开发平台MODELARTS

模型压缩是指将高比特浮点数映射到低比特量化空间，从而减少显存占用的资源，降低推理服务时延，提高推理服务吞吐量，并同时减少模型的精度损失。模型压缩适用于追求更高的推理服务性能、低成本部署以及可接受一定精度损失的场景。

ModelArts Studio大模型即服务平台当前支持SmoothQuant-W8A8和AWQ-W4A16两种压缩策略。

表1 压缩策略的适用场景
压缩策略	场景
SmoothQuant-W8A8	长序列的场景大并发量的场景
AWQ-W4A16	小并发量的低时延场景更少推理卡数部署的场景

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-使用MaaS压缩模型:场景描述

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

7*24