Centrala begrepp
Durch die Darstellung neuronaler Netze als Graphen können leistungsfähige Graph-Neuronale-Netzwerke und Transformer-Modelle genutzt werden, um eine Vielzahl von Aufgaben im Zusammenhang mit neuronalen Netzen effizient zu lösen.
Sammanfattning
Die Arbeit präsentiert einen Ansatz, um neuronale Netze als Graphen darzustellen, um so die inhärenten Symmetrien in den Parametern von neuronalen Netzen zu berücksichtigen. Dazu werden die Neuronen als Knoten und die Verbindungen zwischen ihnen als Kanten in einem Graphen abgebildet.
Dieser Graph-basierte Ansatz bietet mehrere Vorteile:
- Er ermöglicht es, leistungsfähige Graph-Neuronale-Netzwerke und Transformer-Modelle zu nutzen, die von Natur aus äquivariant gegenüber Permutationssymmetrien sind.
- Er kann mit heterogenen Architekturen umgehen, d.h. Architekturen mit unterschiedlicher Anzahl an Schichten, Dimensionen, Aktivierungsfunktionen und Verbindungen.
- Zusätzlich zu den Gewichten und Bias-Werten können weitere Merkmale wie Gradienten oder Aktivierungen als Knoten- und Kanteneigenschaften integriert werden.
Die Autoren evaluieren ihren Ansatz auf einer Reihe von Aufgaben wie der Klassifikation und Bearbeitung impliziter neuronaler Darstellungen, der Vorhersage der Generalisierungsleistung und dem Lernen von Optimierern. Dabei übertreffen die Graph-basierten Modelle den Stand der Technik deutlich.
Statistik
Die Genauigkeit der MNIST-Klassifikation impliziter neuronaler Darstellungen steigt von 83,9% auf 91,4% durch die Verwendung von Positionseinbettungen.
Auf dem CIFAR10-GS-Datensatz zur Vorhersage der Generalisierungsleistung erreichen die vorgeschlagenen Methoden NG-GNN und NG-T Kendall's τ-Werte von 0,930 und 0,935, verglichen mit 0,915 für StatNN.
Auf dem CIFAR10-Datensatz für das Lernen von Optimierern erzielt NG-GNN eine Testgenauigkeit von 64,37%, deutlich besser als die Baseline-Methoden wie LSTM mit 59,10%.
Citat
"Durch die Darstellung neuronaler Netze als Graphen können leistungsfähige Graph-Neuronale-Netzwerke und Transformer-Modelle genutzt werden, um eine Vielzahl von Aufgaben im Zusammenhang mit neuronalen Netzen effizient zu lösen."
"Zusätzlich zu den Gewichten und Bias-Werten können weitere Merkmale wie Gradienten oder Aktivierungen als Knoten- und Kanteneigenschaften integriert werden."