Grunnleggende konsepter
注意メカニズムは大規模言語モデルの鍵となるが、注意行列は計算上のボトルネックとなる。本論文では、注意行列の近似に役立つ2つのプロキシを定義し、それらに対する回帰問題を効率的に解くアルゴリズムを提案する。
Sammendrag
本論文では、注意メカニズムの重要な構成要素である注意行列の効率的な近似に焦点を当てている。
まず、2つのプロキシを定義する:
行列A⊤Aの行列指数関数を用いる
行列AA⊤の要素ごとの指数関数を用いる
これらのプロキシに対する回帰問題を効率的に解くアルゴリズムを提案する。
具体的には以下の2つの回帰問題を扱う:
min_x ∥(A⊤A)^jx - b∥_2
min_x ∥A(A⊤A)^jx - b∥_2
これらの問題は、行列指数関数の近似に必要な部分問題となる。
さらに、AA⊤の要素ごとの指数関数を用いた注意カーネル回帰問題も扱う:
min_x ∥exp(AA⊤)x - b∥_2
提案アルゴリズムは、スケッチングと前処理を用いて高速に解くことができる。これらの取り組みは、注意行列の効率的な近似を研究する新しい視点を提供する。
Statistikk
入力行列Aの条件数をκと表す
目的関数の最適値を∥b∥_2と表す