Core Concepts
入力シーケンスの交換可能性は潜在変数モデルを導き、この潜在変数モデルに基づいて注意機構の表現、推論、学習を理論的に特徴付けることができる。
Abstract
本論文は、入力シーケンスの交換可能性に着目し、注意機構の理論的分析を行っている。
まず、入力シーケンスの交換可能性から潜在変数モデルの存在を示し、この潜在変数が入力シーケンスの「概念」を表していることを明らかにする。この潜在変数の事後分布が入力シーケンスの十分かつ最小限の表現となることを証明する。
次に、注意機構がこの潜在変数の事後分布を近似的に推論できることを示す。特に、注意機構のパラメータが適切であれば、潜在変数の事後分布を推論できることを明らかにする。さらに、ソフトマックス注意機構がこの事後分布を漸近的に推論できることを示す。
最後に、教師あり学習と自己教師あり学習の両方の目的関数が、入力サイズに依存しない一般化誤差で潜在変数の事後分布を学習できることを証明する。特に自己教師あり学習では、下流タスクの解決に重要な条件数を特定する。
以上より、注意機構は潜在変数モデルに基づく「グレーボックス」アプローチであり、手作りの計算グラフ(ホワイトボックス)と学習可能なパラメータ(ブラックボックス)を組み合わせたものであることが明らかになった。
Stats
入力シーケンスの長さLが大きくなるほど、注意機構によるCME事後分布の推論誤差が小さくなる。
入力サイズLに依存しない一般化誤差で、教師あり学習と自己教師あり学習の両方の目的関数が潜在変数の事後分布を学習できる。
自己教師あり学習では、下流タスクの解決に重要な条件数が存在する。
Quotes
"入力トークンは位置エンコーディングを含むため交換可能である。この交換可能性は潜在変数モデルを導く。"
"注意機構は、適切なパラメータ化により、潜在変数の事後分布を近似的に推論できる。"
"教師あり学習と自己教師あり学習の両方の目的関数が、入力サイズに依存しない一般化誤差で潜在変数の事後分布を学習できる。"