Understanding the joint dynamics of MLP and attention layers in multilayer Transformers.


coremsg

joma-demystifying-multilayer-transformers


JoMA: Demystifying Multilayer Transformers



提案されたJoint MLP/Attention (JoMA)ダイナミクスは、多層Transformerアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みを提供します。



JoMA: Demystifying Multilayer Transformers at ICLR 2024