华为云AI系统创新Lab论文IMPRESS被国际顶级会议FAST2025录用

华为云AI系统创新Lab论文IMPRESS被国际顶级会议FAST2025录用

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

      2024年12月,第23届 USENIX 文件与存储技术会议(FAST: 23rd USENIX Conference on File and Storage Technologies)公布了论文录用名单,华为云AI系统创新Lab参与研究的论文《IMPRESS: An Importance-informed Multi-tier Prefix KV Storage System for Large Language Model Inference》被主会接收。FAST 是存储系统领域的顶级学术会议,被中国计算机学会推荐为A类学术会议。第23届FAST会议将于2025年2月25日-27日在美国加利福尼亚召开。以下是论文的核心内容概述:

       本文设计了基于数据重要性的AI大模型推理加速系统 IMPRESS。该系统利用GPU显存、CPU内存和本地 SSD 存储可重用的前缀 KV,并通过减少不重要 KV 的重用降低 I/O 瓶颈。首先,基于不同注意力头之间的重要 KV 分布的相似性,本文设计了一种 I/O 高效的重要 KV 识别方法;其次,在存储层面通过调整KV的排列顺序缓解读放大问题;在缓存层面,将更重要的数据优先进入和驻留在快速介质中,减少数据跨层传输。实验表明,该系统能够在保持精度不变的情况下,比DeepSpeed ZeRO-Inference框架的异步 KV 加载策略提升吞吐量 2.75至 4.15 倍。