Unter der Transformer-Architektur erfordert hohe Sensitivität im Eingaberaum sehr scharfe Minima im Verlustlandschaft.