Der Artikel befasst sich mit der Herausforderung, nützliche Darstellungen der Gewichtsmatrizen rekurrenter neuronaler Netzwerke (RNNs) zu lernen. Dafür werden sechs neuronale Netzwerkarchitekturen vorgestellt, die in zwei Gruppen unterteilt werden: mechanistische und funktionalistische Ansätze.
Die mechanistischen Ansätze behandeln die Gewichte direkt als Eingabedaten, während die funktionalistischen Ansätze die Funktionalität des RNNs untersuchen, ohne direkten Zugriff auf die Gewichte zu haben. Zu den mechanistischen Ansätzen gehören Layer-Wise Statistics, Flattened Weights, Parameter Transformer und DWSNet. Die funktionalistischen Ansätze umfassen Non-Interactive Probing und Interactive Probing.
Es wird ein theoretischer Rahmen entwickelt, der zeigt, dass Interactive Probing in bestimmten Fällen exponentiell effizienter sein kann als Non-Interactive Probing. Außerdem werden zwei umfangreiche Datensätze von trainierten RNNs für formale Sprachen und sequenzielle MNIST-Klassifikation erstellt und veröffentlicht.
Die empirischen Ergebnisse zeigen, dass der Interactive Probing-Ansatz für die Aufgabe der formalen Sprachmodellierung am besten abschneidet, während beide Probing-Ansätze für die sequenzielle MNIST-Aufgabe effektiv sind. Für andere Vorhersageaufgaben wie Genauigkeit, Generalisierungslücke und Trainingsstufe erweist sich DWSNet als am konsistentesten.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések