Die Entfernung der Quadratwurzel in adaptiven Methoden verbessert die Generalisierung auf CNNs und bewahrt die Leistung auf Visionstransformatoren.