Understanding the joint dynamics of MLP and attention layers in multilayer Transformers.
提案されたJoint MLP/Attention (JoMA)ダイナミクスは、多層Transformerアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みを提供します。