Core Concepts
Die Verwendung von Transfer Entropy (TE) als Rückkopplungsparameter beschleunigt den Trainingsprozess von Convolutional Neural Networks, da weniger Epochen benötigt werden. Allerdings fügt es einen Rechenaufwand pro Epoche hinzu.
Abstract
Der Artikel untersucht, wie Transfer Entropy (TE) in den Lernmechanismus von Convolutional Neural Networks (CNNs) integriert werden kann, um den Trainingsprozess zu beschleunigen.
Kernpunkte:
TE kann verwendet werden, um die effektive Konnektivität zwischen künstlichen Neuronen zu quantifizieren. In einem vorwärtsgerichteten Netzwerk kann TE genutzt werden, um die Beziehungen zwischen Neuronenpaaren in verschiedenen Schichten zu quantifizieren.
Es wird ein neuartiger Trainingsmechanismus für CNN-Architekturen eingeführt, der TE-Rückkopplungsverbindungen integriert.
Das Hinzufügen des TE-Rückkopplungsparameters beschleunigt den Trainingsprozess, da weniger Epochen benötigt werden. Allerdings fügt es einen Rechenaufwand pro Epoche hinzu.
Um einen angemessenen Rechenaufwand-Genauigkeits-Kompromiss zu erzielen, ist es effizient, nur den inter-neuronalen Informationstransfer einer zufälligen Teilmenge der Neuronenpaare aus den letzten beiden vollständig verbundenen Schichten zu berücksichtigen.
Die TE wirkt als Glättungsfaktor, erzeugt Stabilität und wird nur periodisch, nicht nach der Verarbeitung jeder Eingabeprobe, aktiv. Daher kann die TE in unserem Modell als langsam veränderter Meta-Parameter betrachtet werden.
Stats
Die Verwendung von TE-Rückkopplungsschleifen für zusätzliche Schichtenpaare verbessert die Leistung, erhöht aber exponentiell den für die TE-Berechnungen erforderlichen Rechenaufwand.
Für das USPS-Netzwerk fügt die Berechnung der TE für die letzten beiden linearen Schichten einen Overhead von 7 Minuten pro Epoche hinzu.
Die Berechnung der TE für die Faltungsschichten des USPS-Netzwerks impliziert einen zusätzlichen Rechenaufwand von fast drei Tagen pro Epoche.
Quotes
"Die Verwendung von TE-Rückkopplungsschleifen für zusätzliche Schichtenpaare verbessert die Leistung, erhöht aber exponentiell den für die TE-Berechnungen erforderlichen Rechenaufwand."
"Für das USPS-Netzwerk fügt die Berechnung der TE für die letzten beiden linearen Schichten einen Overhead von 7 Minuten pro Epoche hinzu."
"Die Berechnung der TE für die Faltungsschichten des USPS-Netzwerks impliziert einen zusätzlichen Rechenaufwand von fast drei Tagen pro Epoche."