Core Concepts
Die Boolean Mean Dimension (BMD) ist ein Maß für die Komplexität und Sensitivität der von neuronalen Netzwerken erlernten Funktionen. Die BMD erreicht ein deutliches Maximum an der Interpolationsschwelle, wo auch die Generalisierungsleistung ein Maximum aufweist. Mit zunehmender Überparametrisierung nähert sich die BMD dann einem niedrigen asymptotischen Wert.
Abstract
Die Studie untersucht den Zusammenhang zwischen der Überparametrisierung neuronaler Netzwerke und der Komplexität der erlernten Funktionen, gemessen anhand der Boolean Mean Dimension (BMD).
Zunächst wird die mathematische Definition der BMD für Pseudo-Boolesche Funktionen hergeleitet. Für das Random Feature Model (RFM) als einfaches Modell neuronaler Netzwerke kann die BMD dann analytisch bestimmt werden. Es zeigt sich, dass die BMD ein deutliches Maximum an der Interpolationsschwelle aufweist, also dort, wo die Netzwerke die Trainingsdaten perfekt anlernen können. Dieses Maximum korrespondiert mit dem bekannten Generalisierungsmaximum in diesem Bereich.
Mit zunehmender Überparametrisierung jenseits der Interpolationsschwelle nähert sich die BMD dann einem niedrigen asymptotischen Wert. Dies deutet darauf hin, dass die Netzwerke trotz ihrer hohen Komplexität letztlich einfache Funktionen implementieren, was ihre gute Generalisierungsleistung erklärt.
Die Autoren zeigen, dass dieses Verhalten der BMD robust gegenüber verschiedenen Modellarchitekturen, Datensätzen und Trainingsverfahren ist. Zudem finden sie, dass Modelle mit adversarieller Initialisierung eine höhere BMD aufweisen und weniger robust gegen Störungen sind.
Stats
Die Interpolationsschwelle, an der die BMD ein Maximum erreicht, liegt bei N = P, also wenn die Zahl der Modellparameter der Zahl der Trainingsdaten entspricht.
Mit zunehmender Regularisierung wird das Maximum der BMD abgemildert.
Bei adversarieller Initialisierung zeigt sich eine Erhöhung der BMD.
Quotes
"Die Boolean Mean Dimension (BMD) ist ein Maß für die Komplexität und Sensitivität der von neuronalen Netzwerken erlernten Funktionen."
"Die BMD erreicht ein deutliches Maximum an der Interpolationsschwelle, wo auch die Generalisierungsleistung ein Maximum aufweist."
"Mit zunehmender Überparametrisierung nähert sich die BMD dann einem niedrigen asymptotischen Wert."