Concepts de base
Clustered Head Attention (CHAI) reduces memory and compute requirements in Large Language Models (LLMs) by clustering correlated attention heads.
Stats
複数のGPUと数十ギガバイトのメモリが必要な単一リクエストに対するLLMのインフェレンス時のメモリ要件を最大21.4%削減します。
CHAIは、最大3つの異なるモデル(OPT-66B、LLAMA-7B、LLAMA-33B)と5つの異なる評価データセットで、最大3.2%の精度低下で推論時間を最大1.73倍短縮します。