News_TKDE期刊

华为云AI系统创新Lab论文IMPRESS被国际顶级会议FAST2025录用

2024年12月，第23届 USENIX 文件与存储技术会议（FAST: 23rd USENIX Conference on File and Storage Technologies）公布了论文录用名单，华为云AI系统创新Lab参与研究的论文《IMPRESS: An Importance-informed Multi-tier Prefix KV Storage System for Large Language Model Inference》被主会接收。FAST 是存储系统领域的顶级学术会议，被中国计算机学会推荐为A类学术会议。第23届FAST会议将于2025年2月25日-27日在美国加利福尼亚召开。以下是论文的核心内容概述：

本文设计了基于数据重要性的AI大模型推理加速系统 IMPRESS。该系统利用GPU显存、CPU内存和本地 SSD 存储可重用的前缀 KV，并通过减少不重要 KV 的重用降低 I/O 瓶颈。首先，基于不同注意力头之间的重要 KV 分布的相似性，本文设计了一种 I/O 高效的重要 KV 识别方法；其次，在存储层面通过调整KV的排列顺序缓解读放大问题；在缓存层面，将更重要的数据优先进入和驻留在快速介质中，减少数据跨层传输。实验表明，该系统能够在保持精度不变的情况下，比DeepSpeed ZeRO-Inference框架的异步 KV 加载策略提升吞吐量 2.75至 4.15 倍。

AI 系统创新Lab

AI 系统创新Lab

华为云AI系统创新Lab论文IMPRESS被国际顶级会议FAST2025录用

华为云AI系统创新Lab论文IMPRESS被国际顶级会议FAST2025录用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线