Основні поняття
Untersuchung der Verbindung zwischen Transformer-Modellen aus verschiedenen Initialisierungen zur Verbesserung des Verständnisses der Verlustlandschaft.
Статистика
Einige Modelle zeigen eine 7-fache Reduzierung der Verwirrung bei der Fusion von Feed-Forward- und Attention-Schichten.
Die Verwendung von Head-Permutationen führt zu niedrigeren Verlustbarrieren als andere Ansätze.
Identitätspermutationen zeigen die besten Ergebnisse bei der Fusion von Residualkomponenten.
Цитати
"Unsere Ergebnisse zeigen, dass die Minima dieser Modelle weniger scharf und isoliert sind als bisher angenommen."
"Die Verwendung von Permutationen ist entscheidend, um die geometrischen Eigenschaften der Minima von Transformer-Modellen zu charakterisieren."