Untersuchung der Verbindung zwischen Transformer-Modellen aus verschiedenen Initialisierungen zur Verbesserung des Verständnisses der Verlustlandschaft.
Die Studie stellt den NiNformer vor, der die Aufmerksamkeitsmechanismen der Transformer-Architektur durch ein Netzwerk im Netzwerk ersetzt, um die Effizienz zu steigern.