AI开发平台MODELARTS-Ascend-vLLM介绍:Ascend-vLLM支持的特性介绍

时间:2025-03-12 09:40:19

Ascend-vLLM支持的特性介绍

表1 Ascend-vLLM支持的特性

特性名称

特性说明

调度

Page-attention

分块管理kvcache,提升吞吐。

Continuous batching

迭代级调度,动态调整batch,降低延迟,提升吞吐。

Multi-step

一次调度多次推理,降低调度上的cpu-overhead。

量化

W4A16-AWQ、GPTQ

权重Int4量化,降低显存消耗和时延。小并发时延提升80%,精度损失2%以内。

W8A8-smoothQuant

权重Int8量化,降低显存消耗,吞吐提升30%;精度损失1.5%以内。

W8A16-GPTQ

Int8量化,降低显存消耗,提高吞吐20%。精度损失1%以内。

Kv8

Kv-cache量化,提高吞吐,支持更长序列。

高效解码

Auto-prefix-caching

前缀缓存,降低首token时延。在system prompt较长或多轮对话场景收益明显

Chunked-prefill

又名split-fuse。全量增量同时推理,提高资源利用率,提升吞吐。

Speculative Decoding

支持大小模型投机推理和eager模式投机,提升推理性能。

图模式

Cuda-graph/cann-graph

记录算子执行的依赖关系构图;消除python host耗时;且支持动态shape。

Torch.compile

Torch.dynamo构图,转ascend-GE后端推理;使用静态分档。

实例复用

Multi-lora

多lora挂载,多个不同微调模型共用一份权重同时部署。

控制输出

Guided Decoding

通过特定模式控制模型输出。

Beam search

通过beamsearch输出多个候选结果。

分离部署

PD分离部署

全量、增量分离部署,提高资源利用率,提升体验。

剪枝

FASP (Fast and Accurate Structured Pruning) 剪枝

FASP剪枝是一种结构化稀疏剪枝方法,能有效降低模型显存以及需要部署的资源依赖,减小推理过程中的计算量,降低增量推理时延,提升吞吐。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_5901001.html