注意メカニズムは大規模言語モデルの鍵となるが、注意行列は計算上のボトルネックとなる。本論文では、注意行列の近似に役立つ2つのプロキシを定義し、それらに対する回帰問題を効率的に解くアルゴリズムを提案する。