Core Concepts
複数のカーネル関数(指数関数、ガウス関数、多項式関数など)を組み合わせることで、位置情報のバイアスを生成し、ポストソフトマックス注意スコアにペナルティを課すことで、長さ外挿性能を向上させる。
Abstract
本研究は、Transformerベースの言語モデルにおける長さ外挿の課題に取り組むため、相対位置エンコーディングの手法を提案している。従来の手法では単一のカーネル関数を使用していたが、本研究では複数のカーネル関数(指数関数、ガウス関数、多項式関数など)を組み合わせることで、より効果的なバイアス関数を生成する。
具体的には以下の3点を行う:
複数のカーネル関数を用いて、ポストソフトマックス注意スコアにペナルティを課すバイアス関数を生成する。これにより、距離が大きいほど注意スコアが小さくなる。
カーネル関数ごとに異なるスロープ値を設定し、外挿性能を高める。
生成したバイアスをポストソフトマックス注意スコアに統合することで、距離に応じて柔軟にペナルティを課す。
提案手法には、パラメータフリーのバージョンとパラメータ化されたバージョンの2つがある。両方のバージョンが、従来手法と比較して優れた長さ外挿性能を示すことが実験的に確認された。
Stats
訓練時の系列長が512トークンの場合、提案手法の非パラメータモデルはALiBiと同等の性能を示す。
訓練時の系列長が1024トークン以上の場合、提案手法の非パラメータモデルはALiBiを上回る性能を示す。
提案手法のパラメータ化モデルは、Kerpleを上回る性能を示す。ただし、512トークンの系列長ではT5に及ばない。