Die Studie untersucht den Zusammenhang zwischen der Überparametrisierung neuronaler Netzwerke und der Komplexität der erlernten Funktionen, gemessen anhand der Boolean Mean Dimension (BMD).
Zunächst wird die mathematische Definition der BMD für Pseudo-Boolesche Funktionen hergeleitet. Für das Random Feature Model (RFM) als einfaches Modell neuronaler Netzwerke kann die BMD dann analytisch bestimmt werden. Es zeigt sich, dass die BMD ein deutliches Maximum an der Interpolationsschwelle aufweist, also dort, wo die Netzwerke die Trainingsdaten perfekt anlernen können. Dieses Maximum korrespondiert mit dem bekannten Generalisierungsmaximum in diesem Bereich.
Mit zunehmender Überparametrisierung jenseits der Interpolationsschwelle nähert sich die BMD dann einem niedrigen asymptotischen Wert. Dies deutet darauf hin, dass die Netzwerke trotz ihrer hohen Komplexität letztlich einfache Funktionen implementieren, was ihre gute Generalisierungsleistung erklärt.
Die Autoren zeigen, dass dieses Verhalten der BMD robust gegenüber verschiedenen Modellarchitekturen, Datensätzen und Trainingsverfahren ist. Zudem finden sie, dass Modelle mit adversarieller Initialisierung eine höhere BMD aufweisen und weniger robust gegen Störungen sind.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Elizaveta De... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.12610.pdfสอบถามเพิ่มเติม