AI开发平台MODELARTS-Ascend-vLLM介绍:Ascend-vLLM支持的特性介绍
Ascend-vLLM支持的特性介绍
特性名称 |
特性说明 |
|
---|---|---|
调度 |
Page-attention |
分块管理kvcache,提升吞吐。 |
Continuous batching |
迭代级调度,动态调整batch,降低延迟,提升吞吐。 |
|
Multi-step |
一次调度多次推理,降低调度上的cpu-overhead。 |
|
量化 |
W4A16-AWQ、GPTQ |
权重Int4量化,降低显存消耗和时延。小并发时延提升80%,精度损失2%以内。 |
W8A8-smoothQuant |
权重Int8量化,降低显存消耗,吞吐提升30%;精度损失1.5%以内。 |
|
W8A16-GPTQ |
Int8量化,降低显存消耗,提高吞吐20%。精度损失1%以内。 |
|
Kv8 |
Kv-cache量化,提高吞吐,支持更长序列。 |
|
高效解码 |
Auto-prefix-caching |
前缀缓存,降低首token时延。在system prompt较长或多轮对话场景收益明显 |
Chunked-prefill |
又名split-fuse。全量增量同时推理,提高资源利用率,提升吞吐。 |
|
Speculative Decoding |
支持大小模型投机推理和eager模式投机,提升推理性能。 |
|
图模式 |
Cuda-graph/cann-graph |
记录算子执行的依赖关系构图;消除python host耗时;且支持动态shape。 |
Torch.compile |
Torch.dynamo构图,转ascend-GE后端推理;使用静态分档。 |
|
实例复用 |
Multi-lora |
多lora挂载,多个不同微调模型共用一份权重同时部署。 |
控制输出 |
Guided Decoding |
通过特定模式控制模型输出。 |
Beam search |
通过beamsearch输出多个候选结果。 |
|
分离部署 |
PD分离部署 |
全量、增量分离部署,提高资源利用率,提升体验。 |
剪枝 |
FASP (Fast and Accurate Structured Pruning) 剪枝 |
FASP剪枝是一种结构化稀疏剪枝方法,能有效降低模型显存以及需要部署的资源依赖,减小推理过程中的计算量,降低增量推理时延,提升吞吐。 |
- TaurusDB重点特性介绍_升级Proxy内核版本_重启Proxy实例
- GaussDB介绍_GaussDB数据库介绍_高斯数据库介绍-华为云
- 好会计介绍-功能介绍-好会计有哪些好用的功能
- BPM流程_BPM的书写格式_BPM产品介绍
- ModelArts是什么_AI开发平台_ModelArts功能
- GaussDB支持的函数_GaussDB函数类型解析_高斯数据库支持的函数-华为云
- PLM流程_PLM介绍_天喻 PLM
- gaussdb咋样_gaussdb介绍_gaussdb的优势_gaussdb用法_gaussdb架构
- 数据库安全服务介绍_数据库安全服务功能特性_数据库安全服务产品优势
- 简要介绍MES系统_山东MES_MES工单