AI开发平台ModelArts-剪枝:FASP剪枝

时间:2025-01-26 10:50:43

FASP剪枝

FASP剪枝是一种结构化稀疏剪枝方法,能有效降低模型显存以及需要部署的资源依赖,减小推理过程中的计算量,降低增量推理时延,提升吞吐。

FASP (Fast and Accurate Structured Pruning) 一种针对LLM进行结构化剪枝的算法,可以减少大模型对于内存和计算资源的需求,提升推理速度,同时其具备比较高的剪枝速度。使用FASP对大模型进行稀疏化剪枝,可以在几乎不影响推理精度情况下,可以有效提升推理性能(吞吐等)。

本文主要应用FASP对LLM进行剪枝压缩。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91213.html