Concepts de base
位置エンコーディングを使わないCausal Transformerモデルは、明示的な位置エンコーディングを使うモデルよりも長さ一般化の性能が良いが、一定の範囲を超えると性能が劣化する。この問題は注意分布の散漫化と関連があり、注意ヘッドの温度パラメータを調整することで大幅に改善できる。
Résumé
本論文は、位置エンコーディングを使わないCausal Transformerモデル(NoPE)の長さ一般化特性を研究したものである。主な発見は以下の通り:
NoPEは明示的な位置エンコーディングを使うモデルよりも長さ一般化の性能が良いが、一定の範囲を超えると性能が劣化する。例えば、NoPEは訓練長の20%まで(2Kから2.4K)は良好に一般化できるが、それ以上の長さでは明示的な位置エンコーディングと同程度の性能低下が見られる。
NoPEの一般化失敗は注意分布の散漫化と関連があることを発見した。注意ヘッドが重みを均等に割り当てるようになると、NoPEの一般化性能が急激に低下する。
注意ヘッドの温度パラメータを調整することで、NoPEの長さ一般化を大幅に改善できることを示した。単一の温度パラメータを調整するだけで、NoPEは4Kトークンまで一般化できるようになる。
さらに、各注意ヘッドの温度パラメータを個別に調整する手法を提案した。これにより、NoPEはより長い文脈長まで一般化できるようになる。
この手法は、パラメータ効率が非常に高く(1Bモデルに対して704個のデルタパラメータ)、少量のデータでも効果的に機能する。実験では、長文言語モデリング、合成タスク、実世界の長文脈タスクでNoPEの一般化性能が大幅に向上することを示した。
Stats
長さ2Kのトークン列で、NoPEのログパープレキシティは14.6である。
長さ4Kのトークン列で、NoPEのログパープレキシティは326.9である。
長さ8Kのトークン列で、NoPEのログパープレキシティは103を超える。