Der Artikel stellt eine neue Normalisierungsmethode namens Cluster-basierte Normalisierung (CB-Norm) vor, die in zwei Varianten - Überwachte Cluster-basierte Normalisierung (SCB-Norm) und Unüberwachte Cluster-basierte Normalisierung (UCB-Norm) - eingeführt wird. CB-Norm nutzt ein Gauß'sches Mischmodell, um Herausforderungen im Zusammenhang mit Gradientenstabilität und Lernbeschleunigung anzugehen.
SCB-Norm verwendet vorher definierte Datenpartitionierungen (Cluster), um Aktivierungen basierend auf dem zugewiesenen Cluster zu normalisieren. Dieser clusterbasierte Ansatz erzeugt einen Raum, der einem Gauß'schen Mischmodell entspricht. UCB-Norm hingegen clustert die Neuronenaktivierungen während des Trainings dynamisch, um sich an aufgabenspezifische Herausforderungen anzupassen, ohne auf vorher definierte Datenpartitionen (Cluster) angewiesen zu sein.
CB-Norm verwendet einen einstufigen Normalisierungsansatz, bei dem die Parameter jeder Mischkomponente (Cluster im Aktivierungsraum) als Gewichte für tiefe neuronale Netzwerke dienen. Dieser adaptive Clustering-Prozess behandelt sowohl das Clustering als auch die Lösung tiefer neuronaler Netzwerkaufgaben gleichzeitig während des Trainings, was eine bemerkenswerte Weiterentwicklung in diesem Bereich darstellt.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Bilal Faye,H... pada arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16798.pdfPertanyaan yang Lebih Dalam