Die Studie analysiert die Stichprobenkomplexität des Gradientenabstiegs (GD) im Rahmen der nicht-glatten stochastischen konvexen Optimierung. Es wird gezeigt, dass der Generalisierungsfehler von GD mit (Minimax-)optimaler Wahl der Hyperparameter ˜Θ(d/m + 1/√m) betragen kann, wobei d die Dimension und m die Stichprobengröße sind. Dies entspricht der Stichprobenkomplexität von worst-case empirischen Risikominimierern.
Der Beweis basiert auf einer neuen Verallgemeinerungsschranke, die sowohl von der Dimension als auch von der Lernrate und der Anzahl der Iterationen abhängt. Die Schranke zeigt auch, dass für allgemeine Hyperparameter, wenn die Dimension strikt größer als die Anzahl der Stichproben ist, T = Ω(1/ε^4) Iterationen erforderlich sind, um Overfitting zu vermeiden. Dies löst ein offenes Problem von Amir, Koren und Livni [3], Schliserman, Sherman und Koren [20] und verbessert frühere untere Schranken, die zeigten, dass die Stichprobengröße mindestens die Quadratwurzel der Dimension betragen muss.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Roi Livni : arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04931.pdfDaha Derin Sorular