Der Artikel stellt eine neue Normalisierungsmethode namens Cluster-basierte Normalisierung (CB-Norm) vor, die in zwei Varianten - Überwachte Cluster-basierte Normalisierung (SCB-Norm) und Unüberwachte Cluster-basierte Normalisierung (UCB-Norm) - eingeführt wird. CB-Norm nutzt ein Gauß'sches Mischmodell, um Herausforderungen im Zusammenhang mit Gradientenstabilität und Lernbeschleunigung anzugehen.
SCB-Norm verwendet vorher definierte Datenpartitionierungen (Cluster), um Aktivierungen basierend auf dem zugewiesenen Cluster zu normalisieren. Dieser clusterbasierte Ansatz erzeugt einen Raum, der einem Gauß'schen Mischmodell entspricht. UCB-Norm hingegen clustert die Neuronenaktivierungen während des Trainings dynamisch, um sich an aufgabenspezifische Herausforderungen anzupassen, ohne auf vorher definierte Datenpartitionen (Cluster) angewiesen zu sein.
CB-Norm verwendet einen einstufigen Normalisierungsansatz, bei dem die Parameter jeder Mischkomponente (Cluster im Aktivierungsraum) als Gewichte für tiefe neuronale Netzwerke dienen. Dieser adaptive Clustering-Prozess behandelt sowohl das Clustering als auch die Lösung tiefer neuronaler Netzwerkaufgaben gleichzeitig während des Trainings, was eine bemerkenswerte Weiterentwicklung in diesem Bereich darstellt.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies