Kernekoncepter
大規模言語モデル(LLM)のデコーディングを高速化するため、位置持続スパースアテンションを用いた新規アルゴリズムとシステム「TidalDecode」を提案する。
Resumé
TidalDecode: 位置持続スパースアテンションを用いた高速かつ正確なLLMデコーディング
本稿は、大規模言語モデル(LLM)の高速かつ正確なデコーディングを実現するアルゴリズムとシステム「TidalDecode」を提案する研究論文である。
LLMは目覚ましい発展を遂げているが、長文処理においてTransformerアーキテクチャで必要となるキーバリュー(KV)キャッシュの肥大化がメモリ制約の深刻化を招いている。特にデコーディング段階におけるボトルネックは顕著である。従来のスパースアテンション機構では、(1) 重要なトークンの特定が不十分、(2) 連続するTransformer層間におけるトークン選択の空間的コヒーレンスの無視による性能低下とオーバーヘッドの増大、といった課題があった。本研究は、これらの課題を克服し、高速かつ正確なLLMデコーディングを実現することを目的とする。
TidalDecodeは、位置持続スパースアテンション(PPSA)を用いることで、高速かつ正確なLLMデコーディングを実現する。PPSAは、連続するTransformer層間で選択されるトークンに大きな重複が見られるという観察に基づいている。TidalDecodeでは、全ての層で独立にトークンを選択するのではなく、少数のトークン選択層を導入し、これらの層でフルアテンションを実行して最も重要なトークンを特定する。残りの層では、選択されたトークンのみを用いてPPSAを実行することで、トークン選択のオーバーヘッドを大幅に削減する。
TidalDecodeの動作原理
フルアテンション層: 最初の数層では、フルアテンションを実行する。
トークン選択層: フルアテンション層の後、および中間層において、フルアテンションを実行し、最も高いアテンションスコアを持つトークンを選択する。
位置持続スパースアテンション層: トークン選択層で選択されたトークンのみを用いて、スパースアテンションを実行する。