Core Concepts
Die Entfernung der Quadratwurzel in adaptiven Methoden verbessert die Generalisierung auf CNNs und bewahrt die Leistung auf Visionstransformatoren.
Abstract
Adaptive Gradientenoptimierer wie Adam sind Standard-Algorithmen für das Training von tiefen Lernarchitekturen.
Die Quadratwurzel in adaptiven Methoden führt zu einer fundamentalen Veränderung in ihrem Verhalten.
Die Entfernung der Quadratwurzel schließt die Generalisierungslücke zu SGD auf CNNs und bewahrt die Leistung auf Visionstransformatoren.
Die Perspektive der zweiten Ordnung ermöglicht die Entwicklung von Matrix-adaptiven Methoden ohne Quadratwurzeln.
Die Quadratwurzel führt zu numerischen und rechnerischen Herausforderungen bei Matrix-adaptiven Methoden.
Die Entfernung der Quadratwurzel ermöglicht die Entwicklung inverser Matrix-adaptiver Methoden für den Einsatz in geringer Präzision.
Stats
Die Quadratwurzel führt zu numerischen und rechnerischen Herausforderungen bei Matrix-adaptiven Methoden.
Die Entfernung der Quadratwurzel ermöglicht die Entwicklung inverser Matrix-adaptiver Methoden für den Einsatz in geringer Präzision.
Quotes
"Die Quadratwurzel stellt eine fundamentale Differenz dar."
"Die Entfernung der Quadratwurzel schließt die Generalisierungslücke zu SGD auf CNNs."