Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality
Die Analyse der Gradientenflussdynamik zeigt die Phasen des Aufkommens, der Konvergenz und des Optimums für das Training von Multi-Head Softmax Attention Modellen.