Der Artikel stellt eine neue Normalisierungsmethode namens Cluster-basierte Normalisierung (CB-Norm) vor, die in zwei Varianten - Überwachte Cluster-basierte Normalisierung (SCB-Norm) und Unüberwachte Cluster-basierte Normalisierung (UCB-Norm) - eingeführt wird. CB-Norm nutzt ein Gauß'sches Mischmodell, um Herausforderungen im Zusammenhang mit Gradientenstabilität und Lernbeschleunigung anzugehen.
SCB-Norm verwendet vorher definierte Datenpartitionierungen (Cluster), um Aktivierungen basierend auf dem zugewiesenen Cluster zu normalisieren. Dieser clusterbasierte Ansatz erzeugt einen Raum, der einem Gauß'schen Mischmodell entspricht. UCB-Norm hingegen clustert die Neuronenaktivierungen während des Trainings dynamisch, um sich an aufgabenspezifische Herausforderungen anzupassen, ohne auf vorher definierte Datenpartitionen (Cluster) angewiesen zu sein.
CB-Norm verwendet einen einstufigen Normalisierungsansatz, bei dem die Parameter jeder Mischkomponente (Cluster im Aktivierungsraum) als Gewichte für tiefe neuronale Netzwerke dienen. Dieser adaptive Clustering-Prozess behandelt sowohl das Clustering als auch die Lösung tiefer neuronaler Netzwerkaufgaben gleichzeitig während des Trainings, was eine bemerkenswerte Weiterentwicklung in diesem Bereich darstellt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bilal Faye,H... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16798.pdfDeeper Inquiries