Die Arbeit untersucht die niedrigdimensionalen Strukturen, die in modernen Deep-Learning-Modellen beobachtet werden, und zeigt, wie diese Strukturen innerhalb des Deep Linear Unconstrained Feature Model theoretisch hergeleitet werden können.
Zunächst wird das Deep Linear Unconstrained Feature Model eingeführt, das eine Erweiterung des ursprünglichen Unconstrained Feature Model ist. Dieses Modell ermöglicht die Analyse der Struktur in den zwischengeschalteten Schichten eines Deep-Learning-Modells.
Die Hauptergebnisse der Arbeit sind:
Hessian-Spektren: Es wird gezeigt, dass die beobachtete Bulk-Outlier-Struktur im Hessian-Spektrum durch das Auftreten von Deep Neural Collapse erklärt werden kann. Die Eigenvektoren und Eigenwerte können in Bezug auf die Schichtmittelwerte der Merkmale ausgedrückt werden.
Gradientenausrichtung: Es wird gezeigt, dass der Gradient des Verlusts während des Trainings mit dem Eigenraum der Top-K-Outlier-Eigenwerte des Hessians ausgerichtet ist. Auch hier spielen die Schichtmittelwerte der Merkmale eine zentrale Rolle.
Gewichtsmatrizen: Die Eigenspektren der Gewichtsmatrizen werden ebenfalls analysiert und es wird gezeigt, wie sie mit den Eigenschaften von Deep Neural Collapse zusammenhängen.
Schließlich werden die theoretischen Ergebnisse für das Deep Linear Unconstrained Feature Model durch numerische Experimente unterstützt. Es wird auch untersucht, inwieweit sich die Ergebnisse auf das vollständige Deep Unconstrained Feature Model übertragen lassen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Connall Garr... om arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06106.pdfDiepere vragen