Analyse der Stichprobenkomplexität des Gradientenabstiegs in der stochastischen konvexen Optimierung
Der Generalisierungsfehler des Gradientenabstiegs mit optimaler Wahl der Hyperparameter kann ˜Θ(d/m + 1/√m) betragen, wobei d die Dimension und m die Stichprobengröße sind. Dies entspricht der Stichprobenkomplexität von worst-case empirischen Risikominimierern. Das bedeutet, dass der Gradientanabstieg im Gegensatz zu anderen Algorithmen keinen Vorteil gegenüber naiven empirischen Risikominimierern hat.