News_TKDE期刊

华为云AI系统创新Lab论文被国际顶级会议AAAI录用

2024年12月10日，人工智能国际顶级会议AAAI 2025公布了论文录用结果。华为云AI系统创新Lab参与研究的论文《Multi-branch Self-Drafting for LLM Inference Acceleration》被AAAI主会议接收。这项成果展现了华为云AI系统创新lab在AI系统研究中的最新进展和技术创新。AAAI是人工智能领域最受关注的国际学术会议之一，属于CCF A类，在学术界享有极高的声誉，AAAI 对论文的评审标准严格，注重研究工作的学术价值、原创性以及对人工智能发展的潜在影响力。AAAI 2025将于2025年2月25日至3月4日在费城举行，届时全球的顶尖学者和企业将齐聚一堂，共同探讨人工智能领域的前沿技术与未来发展方向。以下是论文的核心内容概述：

在大语言模型（LLM）部署推理过程中，推理速度的主要瓶颈往往不是显卡的算力，而是显卡的内存带宽。这是因为在推理时，每解码一个 token 都需要访问模型的全部参数，导致显卡处于 memory-bound 状态。为解决这一问题，常见的方法包括减少模型参数量，以及通过并行解码策略增加每次模型 forward 解码的 token 数量。研究者们注意到，大语言模型具有很强的鲁棒性，即使输入中存在一定噪音，也能生成质量较高的解码结果。基于这一特性，这个工作扩展了原始自回归模型的解码过程。具体而言，它在原始的解码流程中增加了多个起草分支，这些分支用于生成与上下文高度相关的高质量草稿。此外，此工作还注意到，业界一些常用的从语料库中抽取草稿信息的方法，生成的结果通常更适合概括通用表达，而非直接在上下文强相关的实际模型部署中使用。对此，此工作设计了一种缓存维护机制，用于同时管理两类草稿信息。

在多种开源模型和数据集上的实验结果表明论文方法可以使得LLM每次forward可以解码2到3.2个tokens；并且实现了两倍左右的端到端的解码速度的提升。

AI 系统创新Lab

AI 系统创新Lab

华为云AI系统创新Lab论文被国际顶级会议AAAI录用

华为云AI系统创新Lab论文被国际顶级会议AAAI录用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线