核心概念
大規模言語モデル(LLM)のコンテキストウィンドウの制限を克服するために、マルチグレインのコンテキスト圧縮とクエリ対応の情報検索を組み合わせた新しいアプローチ「SharedLLM」が提案されている。
要約
SharedLLM: マルチグレイン自己注入によるコンテキストウィンドウ拡張
本稿では、大規模言語モデル(LLM)のコンテキストウィンドウの制限に対処するため、SharedLLMと呼ばれる新しいアプローチが提案されています。SharedLLMは、マルチグレインのコンテキスト圧縮とクエリ対応の情報検索という設計思想に基づいています。
SharedLLMは、上位モデルと下位モデルと呼ばれる2つの短コンテキストLLM(例:LLaMA-2)で構成されています。下位モデルはコンプレッサーとして機能し、上位モデルはデコーダーとして機能します。上位モデルは、下位モデルから圧縮されたマルチグレインのコンテキスト情報を受け取り、実行中のテキストに対してコンテキストを考慮したモデリングを実行します。コンプレッサーとデコーダー間の情報転送は、下位モデルの長い順方向パスと上位モデルの冗長な相互注意モジュールを回避するために、最下層でのみ行われます。
SharedLLMは、マルチグレインのコンテキスト情報をテキストチャンクに対して効率的にエンコード、保存、取得するために、コンテキストツリーと呼ばれる専用のツリー構造を導入しています。この構造と検索アルゴリズムを組み合わせることで、入力クエリに基づいてツリーのさまざまなレベルから関連情報を迅速にエンコードおよび取得できます。送信側と受信側が同じLLM層から派生しているこのプロセス全体を、自己注入と呼びます。