Die Arbeit stellt einen allgemeinen Trainingsrahmen namens XGrad vor, der Gewichtsvorhersage in gängige gradientenbasierte Optimierer integriert, um deren Konvergenz und Generalisierung beim Training von Tiefenlernmodellen zu verbessern.
Cluster-basierte Normalisierung (CB-Norm) ist ein neuartiger Normalisierungsansatz für neuronale Netzwerke, der die Stabilität des Gradienten, die Beschleunigung des Lernens und die Anpassungsfähigkeit an verschiedene Lernszenarien verbessert.