Durch die Darstellung neuronaler Netze als Graphen können leistungsfähige Graph-Neuronale-Netzwerke und Transformer-Modelle genutzt werden, um eine Vielzahl von Aufgaben im Zusammenhang mit neuronalen Netzen effizient zu lösen.
Durch die zunehmende Anzahl neuer neuronaler Architekturentwürfe und bestehender neuronaler Architekturen wird es für Forscher schwierig, ihre Beiträge im Vergleich zu bestehenden neuronalen Architekturen einzuordnen oder Verbindungen zwischen ihren Entwürfen und anderen relevanten herzustellen. Um ähnliche neuronale Architekturen auf effiziente und automatische Weise zu entdecken, definieren wir ein neues Problem, das "Retrieval von neuronalen Architekturen", das eine Reihe bestehender neuronaler Architekturen abruft, die ähnliche Entwürfe wie die Abfragearchitektur aufweisen.
Effiziente Methoden zur Extraktion von Informationen aus den Gewichtsmatrizen rekurrenter neuronaler Netzwerke, um deren Funktionalität zu verstehen und für nachgelagerte Aufgaben zu nutzen.
Die Arbeit präsentiert ein neuartiges mathematisches Rahmenwerk namens JoMA, das die gemeinsame Dynamik von selbstaufmerksamem Lernen und mehrschichtigen MLP-Schichten in Transformator-Architekturen charakterisiert. JoMA zeigt, wie die Aufmerksamkeit zunächst spärlich wird, um auf die wichtigsten Merkmale zu fokussieren, und dann dichter wird, um weniger wichtige Merkmale zu lernen. Dieses Verhalten ermöglicht es den Transformatoren, hierarchische Konzepte in den Eingabedaten zu erlernen.
Wir entwickeln ein neuronales Sortiernetzsystem mit fehlerfreien differenzierbaren Tauschfunktionen, um hochdimensionale Eingaben wie Mehrstellenzahlen und Bildausschnitte effizient zu sortieren.
Der Hauptbeitrag dieses Papiers ist die Beschreibung, wie exakte lokale Gradienten von Spikes in einer Online-Weise berechnet werden können, wobei die intra-neuronalen Abhängigkeiten zwischen postsynaptischen Spikes berücksichtigt werden, und die Ableitung eines dynamischen Systems für die Kompatibilität mit neuromorpher Hardware.