In dieser Arbeit wird ein einfaches rekurrentes neuronales Netzwerk (RNN) namens Wave-RNN (wRNN) vorgestellt, das reisende Wellen in seinem Zustandsvektor aufweist. Die Autoren zeigen, dass diese Wellenaktivität den Netzwerken hilft, sich an kürzlich präsentierte Eingaben zu erinnern und so Sequenzlernaufgaben deutlich besser zu lösen als vergleichbare Modelle ohne Wellenaktivität.
In Experimenten mit synthetischen Gedächtnisaufgaben wie dem Copy-Task und der Addition über lange Sequenzen zeigt der wRNN eine deutlich schnellere Konvergenz und niedrigere Fehlerraten als die Baseline-Modelle. Auch bei komplexeren Sequenzklassifikationsaufgaben wie sMNIST, psMNIST und nsCIFAR10 übertrifft der wRNN die Leistung einfacher RNNs und erreicht vergleichbare Ergebnisse wie komplexere Architekturen wie LSTMs und GRUs, bei deutlich geringerer Parameteranzahl.
Die Autoren argumentieren, dass die reisenden Wellen im wRNN-Modell als eine Art "Arbeitsspeicher" fungieren, in dem die jüngste Vergangenheit effizient kodiert wird. Dies ermöglicht dem Modell ein besseres Lernen und Erinnern von Sequenzen im Vergleich zu statischen "Bump"-Systemen ohne Wellenausbreitung.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by T. Anderson ... alle arxiv.org 03-18-2024
https://arxiv.org/pdf/2309.08045.pdfDomande più approfondite