Der Artikel stellt eine neue Normalisierungsmethode namens Cluster-basierte Normalisierung (CB-Norm) vor, die in zwei Varianten - Überwachte Cluster-basierte Normalisierung (SCB-Norm) und Unüberwachte Cluster-basierte Normalisierung (UCB-Norm) - eingeführt wird. CB-Norm nutzt ein Gauß'sches Mischmodell, um Herausforderungen im Zusammenhang mit Gradientenstabilität und Lernbeschleunigung anzugehen.
SCB-Norm verwendet vorher definierte Datenpartitionierungen (Cluster), um Aktivierungen basierend auf dem zugewiesenen Cluster zu normalisieren. Dieser clusterbasierte Ansatz erzeugt einen Raum, der einem Gauß'schen Mischmodell entspricht. UCB-Norm hingegen clustert die Neuronenaktivierungen während des Trainings dynamisch, um sich an aufgabenspezifische Herausforderungen anzupassen, ohne auf vorher definierte Datenpartitionen (Cluster) angewiesen zu sein.
CB-Norm verwendet einen einstufigen Normalisierungsansatz, bei dem die Parameter jeder Mischkomponente (Cluster im Aktivierungsraum) als Gewichte für tiefe neuronale Netzwerke dienen. Dieser adaptive Clustering-Prozess behandelt sowohl das Clustering als auch die Lösung tiefer neuronaler Netzwerkaufgaben gleichzeitig während des Trainings, was eine bemerkenswerte Weiterentwicklung in diesem Bereich darstellt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Bilal Faye,H... a las arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16798.pdfConsultas más profundas