Core Concepts
本文综述了现有的提高大型语言模型推理效率的技术,包括数据层面、模型层面和系统层面的优化方法。这些技术旨在降低大型语言模型在推理过程中的计算成本、内存访问成本和内存使用量,从而提高其在资源受限场景下的部署效率。
Abstract
本文首先分析了大型语言模型推理效率低下的根源,主要包括模型规模巨大、注意力机制计算复杂度高以及自回归解码方法。
在数据层面优化方面,文章介绍了输入压缩和输出组织两类技术。输入压缩技术通过压缩输入提示来减少推理过程中的计算和内存开销,包括提示修剪、提示摘要、基于软提示的压缩以及基于检索的生成等方法。输出组织技术则通过合理组织输出内容的结构来实现并行推理,从而提高硬件利用率和降低生成延迟。
在模型层面优化方面,文章总结了两类技术:高效模型结构设计和模型压缩。前者包括高效前馈网络设计、高效注意力机制设计以及Transformer替代架构等,旨在直接设计出更高效的模型结构。后者则聚焦于压缩预训练模型,包括知识蒸馏、量化等方法,通常需要进行少量的微调来恢复模型性能。
在系统层面优化方面,文章介绍了推理引擎和服务系统两个方向的优化技术,如推测性解码、图优化和批处理等,这些技术无需修改模型本身即可提高推理效率。
总的来说,本文全面总结了当前提高大型语言模型推理效率的各类技术,并对关键子领域进行了定量实验分析,为未来研究提供了知识总结和方向建议。
Stats
大型语言模型通常包含数十亿甚至数万亿个参数。例如,LLaMA-70B模型包含70亿个参数,而GPT-3模型规模高达175亿个参数。
注意力机制的计算复杂度随输入长度呈二次增长。
自回归解码方法要求在每个解码步骤中加载全部模型权重,导致大量内存访问开销。
Quotes
"LLMs typically demand higher computational cost, memory access cost and memory usage in their inference process, which deteriorates the efficiency indicators (e.g., latency, throughput, power consumption and storage) in the resource-constrained scenarios."
"The substantial computational and memory requirements of LLM inference pose challenges for deployment in resource-constrained scenarios."