Conceitos essenciais
Transformerモデルは、因果言語モデリングのトレーニングプロセスにおいて、内部最適化プロセスを確立し、クラスタリングとCLM目的の両方を最適化することが示唆されています。
Estatísticas
W0は非常に小さいと仮定してゼロ行列を使用できます。
ηt∇ytL ⊗xtはエラーシグナルと見なすことができます。
zL+2T +1 = WLHzL+1 ≈ " T X t=1 ηL+1t(yt −st)(zL+1t)T # zL+1T +1.
WlhO ∈Rdmodel×dhead, WlhV, WlhK, and WlhQ ∈Rdhead×dmodelはそれぞれ出力、値、キー、クエリ射影行列です。
Citações
Transformers learn in-context by gradient descent.
Transformers learn to implement preconditioned gradient descent for in-context learning.