核心概念
Cluster-basierte Normalisierung (CB-Norm) ist ein neuartiger Normalisierungsansatz für neuronale Netzwerke, der die Stabilität des Gradienten, die Beschleunigung des Lernens und die Anpassungsfähigkeit an verschiedene Lernszenarien verbessert.
摘要
Der Artikel stellt eine neue Normalisierungsmethode namens Cluster-basierte Normalisierung (CB-Norm) vor, die in zwei Varianten - Überwachte Cluster-basierte Normalisierung (SCB-Norm) und Unüberwachte Cluster-basierte Normalisierung (UCB-Norm) - eingeführt wird. CB-Norm nutzt ein Gauß'sches Mischmodell, um Herausforderungen im Zusammenhang mit Gradientenstabilität und Lernbeschleunigung anzugehen.
SCB-Norm verwendet vorher definierte Datenpartitionierungen (Cluster), um Aktivierungen basierend auf dem zugewiesenen Cluster zu normalisieren. Dieser clusterbasierte Ansatz erzeugt einen Raum, der einem Gauß'schen Mischmodell entspricht. UCB-Norm hingegen clustert die Neuronenaktivierungen während des Trainings dynamisch, um sich an aufgabenspezifische Herausforderungen anzupassen, ohne auf vorher definierte Datenpartitionen (Cluster) angewiesen zu sein.
CB-Norm verwendet einen einstufigen Normalisierungsansatz, bei dem die Parameter jeder Mischkomponente (Cluster im Aktivierungsraum) als Gewichte für tiefe neuronale Netzwerke dienen. Dieser adaptive Clustering-Prozess behandelt sowohl das Clustering als auch die Lösung tiefer neuronaler Netzwerkaufgaben gleichzeitig während des Trainings, was eine bemerkenswerte Weiterentwicklung in diesem Bereich darstellt.
統計資料
Die Aktivierungen können als Gauß'sches Mischmodell dargestellt werden.
Die Normalisierung der Aktivierungen während des Trainings tiefer neuronaler Netzwerke dient der Schätzung der Parameter für jede Mischkomponente.
Die geschätzten Parameter werden als lernbare Parameter behandelt und während des Backpropagation-Verfahrens aktualisiert, um mit der Zielaufgabe übereinzustimmen.
引述
"CB-Norm spielt als integraler Bestandteil tiefer neuronaler Netzwerke eine entscheidende Rolle bei der Standardisierung von Aktivierungen, die aus demselben Cluster stammen, unter Verwendung der durch Backpropagation erworbenen Parameter. Dieser Prozess erleichtert die Schätzung der Parameter für jeden Cluster und verbessert letztendlich die diskriminierende Kapazität der Datenrepräsentation in Bezug auf die Zielaufgabe."
"CB-Norm zeigt Vielseitigkeit in verschiedenen tiefen neuronalen Netzwerkarchitekturen, einschließlich Transformatoren und Convolutional Neural Networks. Es dient als Schicht in verschiedenen Tiefen und beschleunigt die Trainingsprozesse sowie verbessert die Generalisierungsleistung konsistent."