本論文は、入力シーケンスの交換可能性に着目し、注意機構の理論的分析を行っている。
まず、入力シーケンスの交換可能性から潜在変数モデルの存在を示し、この潜在変数が入力シーケンスの「概念」を表していることを明らかにする。この潜在変数の事後分布が入力シーケンスの十分かつ最小限の表現となることを証明する。
次に、注意機構がこの潜在変数の事後分布を近似的に推論できることを示す。特に、注意機構のパラメータが適切であれば、潜在変数の事後分布を推論できることを明らかにする。さらに、ソフトマックス注意機構がこの事後分布を漸近的に推論できることを示す。
最後に、教師あり学習と自己教師あり学習の両方の目的関数が、入力サイズに依存しない一般化誤差で潜在変数の事後分布を学習できることを証明する。特に自己教師あり学習では、下流タスクの解決に重要な条件数を特定する。
以上より、注意機構は潜在変数モデルに基づく「グレーボックス」アプローチであり、手作りの計算グラフ(ホワイトボックス)と学習可能なパラメータ(ブラックボックス)を組み合わせたものであることが明らかになった。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies