Die Studie analysiert die Stichprobenkomplexität des Gradientenabstiegs (GD) im Rahmen der nicht-glatten stochastischen konvexen Optimierung. Es wird gezeigt, dass der Generalisierungsfehler von GD mit (Minimax-)optimaler Wahl der Hyperparameter ˜Θ(d/m + 1/√m) betragen kann, wobei d die Dimension und m die Stichprobengröße sind. Dies entspricht der Stichprobenkomplexität von worst-case empirischen Risikominimierern.
Der Beweis basiert auf einer neuen Verallgemeinerungsschranke, die sowohl von der Dimension als auch von der Lernrate und der Anzahl der Iterationen abhängt. Die Schranke zeigt auch, dass für allgemeine Hyperparameter, wenn die Dimension strikt größer als die Anzahl der Stichproben ist, T = Ω(1/ε^4) Iterationen erforderlich sind, um Overfitting zu vermeiden. Dies löst ein offenes Problem von Amir, Koren und Livni [3], Schliserman, Sherman und Koren [20] und verbessert frühere untere Schranken, die zeigten, dass die Stichprobengröße mindestens die Quadratwurzel der Dimension betragen muss.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문