Temel Kavramlar
単一の自己注意層を用いることで、一般化ポッツモデルの条件付き確率分布を正確に再構築できることを示した。
Özet
本研究では、単語列をポッツモデルのスピン系として表現し、マスクされた単語を予測するマスクド言語モデリング(MLM)タスクを考えた。
- 通常のトランスフォーマーでは複数の自己注意層が必要だが、位置情報と単語表現を分離した「factored self-attention」を用いると、単一の自己注意層で一般化ポッツモデルの相互作用行列を正確に再構築できることを示した。
- factored self-attentionによる学習は、統計物理学で知られる「疑似尤度法」による逆ポッツ問題の解法と等価であり、漸近的に最適な推定値を得られることが分かった。
- レプリカ理論を用いて、factored self-attentionの汎化誤差を解析的に計算し、訓練サンプル数に対する非自明な振る舞いを明らかにした。
İstatistikler
一般化ポッツモデルのハミルトニアンは H(s) = -1/2 Σi,j Jij sT
i U sj で表される。
相互作用行列Jは対称行列で、Jii = 0とした。
色の類似性行列Uは標準正規分布から抽出した。
Alıntılar
"単一の factored self-attention層を用いることで、一般化ポッツモデルの相互作用行列を正確に再構築できる"
"factored self-attentionによる学習は、疑似尤度法による逆ポッツ問題の解法と等価である"