Core Concepts
Transformersにおけるキー・バリューキャッシュの長さを減らすことで、大規模言語モデル(LLMs)のメモリ効率と速度を向上させる方法。
Abstract
Transformersは大規模言語モデル(LLMs)の主要なバックボーンとして浮上している。
キー・バリューキャッシュの長さが入力シーケンス長やバッチサイズと線形にスケーリングされ、推論時に過剰なメモリ負荷が発生する。
Dynamic Memory Compression(DMC)はオンラインキー・バリューキャッシュ圧縮法であり、異なる圧縮率を異なるヘッドやレイヤーに適用することを学習する。
DMCは事前訓練されたLLMsを改修し、追加パラメータを追加せずに最大3.7倍のスループット向上を実現する。
DMCはKVキャッシュ圧縮がより効率的な生成をもたらすことを確認し、与えられたメモリ予算内でより大きなバッチや長いシーケンスを収容可能にする。
Stats
メインアイデアは、DMCが最大3.7倍のスループット向上を実現したことです。
Quotes
"Transformers have emerged as the backbone of large language models (LLMs)."
"Most importantly, the model learns to apply different compression rates in different heads and layers."
"We find that DMC preserves the original downstream performance with up to 4× cache compression."