핵심 개념
Untersuchung der Verbindung zwischen Transformer-Modellen aus verschiedenen Initialisierungen zur Verbesserung des Verständnisses der Verlustlandschaft.
통계
Einige Modelle zeigen eine 7-fache Reduzierung der Verwirrung bei der Fusion von Feed-Forward- und Attention-Schichten.
Die Verwendung von Head-Permutationen führt zu niedrigeren Verlustbarrieren als andere Ansätze.
Identitätspermutationen zeigen die besten Ergebnisse bei der Fusion von Residualkomponenten.
인용구
"Unsere Ergebnisse zeigen, dass die Minima dieser Modelle weniger scharf und isoliert sind als bisher angenommen."
"Die Verwendung von Permutationen ist entscheidend, um die geometrischen Eigenschaften der Minima von Transformer-Modellen zu charakterisieren."