Schwere Schwanzklasse-Ungleichgewicht führt zu Optimierungsschwierigkeiten mit Gradientenabstieg, während Adam davon profitiert.