Core Concepts
Der Initialisierungsmaßstab κ der Ausgabefunktion spielt eine entscheidende Rolle bei der Steuerung der Trainingsdynamik neuronaler Netze. Wenn κ einen bestimmten Schwellenwert überschreitet, können tiefe neuronale Netze unabhängig von den verwendeten Initialisierungsschemata für die Gewichtsparameter schnell auf einen Trainingsverlust von null gebracht werden.
Abstract
Die Studie untersucht die Trainingsdynamik von neuronalen Netzen aus einer makroskopischen Perspektive, indem sie den Einfluss verschiedener Faktoren, die durch die Initialisierung der Gewichtsparameter eingeführt werden, analysiert.
Zentrale Erkenntnisse:
Der Initialisierungsmaßstab κ der Ausgabefunktion ist ein Schlüsselfaktor, der das Trainingsverhalten neuronaler Netze steuert.
Wenn κ einen bestimmten Schwellenwert überschreitet (limm→∞ log κ / log m > 0), können tiefe neuronale Netze unabhängig von den verwendeten Initialisierungsschemata schnell auf einen Trainingsverlust von null gebracht werden.
Dieser Bereich, der als "theta-lazy"-Bereich bezeichnet wird, unterstreicht den dominanten Einfluss von κ gegenüber anderen Faktoren auf das Trainingsverhalten neuronaler Netze.
Die Analyse erweitert die Anwendbarkeit des Konzepts des Neuronalen Tangentialkerns (NTK), indem sie die Bedingung limm→∞ log κ / log m = 1/2 und die Skalierung der Gewichtsparameter mit dem Faktor 1/√m aufhebt.
Stats
Wenn der Initialisierungsmaßstab κ einen bestimmten Schwellenwert überschreitet (limm→∞ log κ / log m > 0), können tiefe neuronale Netze unabhängig von den verwendeten Initialisierungsschemata schnell auf einen Trainingsverlust von null gebracht werden.
Der Initialisierungsmaßstab κ spielt eine entscheidende Rolle bei der Steuerung der Trainingsdynamik neuronaler Netze.
Quotes
"Der Initialisierungsmaßstab κ der Ausgabefunktion spielt eine entscheidende Rolle bei der Steuerung der Trainingsdynamik neuronaler Netze."
"Wenn κ einen bestimmten Schwellenwert überschreitet (limm→∞ log κ / log m > 0), können tiefe neuronale Netze unabhängig von den verwendeten Initialisierungsschemata schnell auf einen Trainingsverlust von null gebracht werden."