Einfache lineare Transformatoren zeigen die gleichen Merkmale der Verlustlandschaft wie praktische tiefe Transformatoren
Einfache lineare Transformer-Modelle können die charakteristischen Merkmale der Optimierung von Transformatoren, wie den Unterschied zwischen SGD und Adam sowie die Schwerfälligkeit des Gradientenrauschens und der Landschaftsbedingungszahl, reproduzieren.