AI开发平台MODELARTS-Ascend-vLLM介绍:Ascend-vLLM支持的特性介绍

时间：2025-03-12 09:40:19

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901）

Ascend-vLLM支持的特性介绍

表1 Ascend-vLLM支持的特性
特性名称		特性说明
调度	Page-attention	分块管理kvcache，提升吞吐。
	Continuous batching	迭代级调度，动态调整batch，降低延迟，提升吞吐。
	Multi-step	一次调度多次推理，降低调度上的cpu-overhead。
量化	W4A16-AWQ、GPTQ	权重Int4量化，降低显存消耗和时延。小并发时延提升80%，精度损失2%以内。
	W8A8-smoothQuant	权重Int8量化，降低显存消耗，吞吐提升30%；精度损失1.5%以内。
	W8A16-GPTQ	Int8量化，降低显存消耗，提高吞吐20%。精度损失1%以内。
	Kv8	Kv-cache量化，提高吞吐，支持更长序列。
高效解码	Auto-prefix-caching	前缀缓存，降低首token时延。在system prompt较长或多轮对话场景收益明显
	Chunked-prefill	又名split-fuse。全量增量同时推理，提高资源利用率，提升吞吐。
	Speculative Decoding	支持大小模型投机推理和eager模式投机，提升推理性能。
图模式	Cuda-graph/cann-graph	记录算子执行的依赖关系构图；消除python host耗时；且支持动态shape。
图模式	Torch.compile	Torch.dynamo构图，转ascend-GE后端推理；使用静态分档。
实例复用	Multi-lora	多lora挂载，多个不同微调模型共用一份权重同时部署。
控制输出	Guided Decoding	通过特定模式控制模型输出。
控制输出	Beam search	通过beamsearch输出多个候选结果。
分离部署	PD分离部署	全量、增量分离部署，提高资源利用率，提升体验。
剪枝	FASP (Fast and Accurate Structured Pruning) 剪枝	FASP剪枝是一种结构化稀疏剪枝方法，能有效降低模型显存以及需要部署的资源依赖，减小推理过程中的计算量，降低增量推理时延，提升吞吐。