Überfitting bei der Interpolation von verrauschten Daten mit flachen univariaten ReLU-Netzwerken
Trotz perfekter Interpolation von verrauschten Trainingsdaten zeigen überparametrisierte neuronale Netzwerke oft ein "gedämpftes Überfitting", bei dem das Populationsrisiko nicht gegen den Bayes-optimalen Fehler konvergiert, aber auch nicht gegen Unendlich geht, was zu nicht-trivialer Generalisierung führt. Diese Arbeit bietet eine rigorose Analyse des Überfittingverhaltens von Regression mit minimaler Norm (L2-Norm der Gewichte), mit Fokus auf univariate zwei-Schichten ReLU-Netzwerke. Es wird gezeigt, dass Überfitting mit hoher Wahrscheinlichkeit gedämpft ist, wenn es in Bezug auf den L1-Verlust gemessen wird, aber katastrophal ist in Bezug auf den L2-Verlust oder wenn der Erwartungswert über den Trainingssatz betrachtet wird.