Core Concepts
Die Studie untersucht die theoretische Ausdruckskraft und den Gestaltungsraum von höheren Ordnung Graph-Transformatoren. Sie zeigt, dass ein einfacher Ordnung-k Graph-Transformer ohne zusätzliche Strukturinformationen weniger ausdrucksstark als der k-Weisfeiler-Lehman-Test ist, aber durch Hinzufügen von Tupel-Indizes als Eingabe mindestens so ausdrucksstark wie k-WL werden kann. Außerdem werden effizientere und ausdrucksstärkere sparse Varianten der höheren Ordnung Graph-Transformatoren entwickelt, die die Graphstruktur nutzen.
Abstract
Die Studie untersucht die theoretische Ausdruckskraft und den Gestaltungsraum von höheren Ordnung Graph-Transformatoren.
Zunächst wird gezeigt, dass ein einfacher Ordnung-k Graph-Transformer ohne zusätzliche Strukturinformationen weniger ausdrucksstark als der k-Weisfeiler-Lehman-Test (k-WL) ist. Durch Hinzufügen von Tupel-Indizes als Eingabe kann der Transformer jedoch mindestens so ausdrucksstark wie k-WL werden, allerdings auf Kosten der Permutationsinvarianz.
Um die Effizienz und Ausdruckskraft zu verbessern, werden dann verschiedene sparse Varianten der höheren Ordnung Graph-Transformatoren entwickelt:
Kernelisierte Aufmerksamkeit reduziert die Komplexität von O(n^2k) auf O(nkd^2), ist aber weniger ausdrucksstark als k-IGN.
Nachbar-Aufmerksamkeit, bei der jedes Tupel nur mit seinen k-Nachbarn Aufmerksamkeit berechnet, ist genauso ausdrucksstark wie k-WL, aber deutlich effizienter mit O(nk+1kd) Komplexität.
Lokale Nachbar-Aufmerksamkeit, die nur die lokalen Nachbarn eines Tupels betrachtet, ist mindestens so ausdrucksstark wie δ-k-LWL und hat eine Komplexität von O(nkkD̄d), wobei D̄ der durchschnittliche Knotengrad ist.
Virtuelle Tupel-Aufmerksamkeit, bei der jedes Tupel nur mit einem virtuellen Tupel Aufmerksamkeit berechnet, hat eine Komplexität von O(nkd) und kann den kernelisierten Ordnung-k Transformer approximieren.
Schließlich werden auch Ansätze zur Reduzierung der Eingabe-Tupel, z.B. durch Verwendung von Simplexen, diskutiert.
Stats
Die Komplexität einer Schicht des einfachen Ordnung-k Transformers Ak beträgt O(n^2kd).
Die Komplexität einer Schicht des Nachbar-Aufmerksamkeits-Transformers ANgbh
k beträgt O(nk+1kd).
Die Komplexität einer Schicht des Lokalen Nachbar-Aufmerksamkeits-Transformers ALN
k beträgt O(nkkD̄d), wobei D̄ der durchschnittliche Knotengrad ist.
Die Komplexität einer Schicht des Virtuellen Tupel-Aufmerksamkeits-Transformers AVT
k beträgt O(nkd).
Quotes
"Ein Ordnung-k Graph-Transformer ohne zusätzliche Strukturinformationen ist strikt weniger ausdrucksstark als der k-Weisfeiler-Lehman-Test."
"Durch Hinzufügen der Tupel-Indizes als Eingabe kann ein Ordnung-k Transformer mindestens so ausdrucksstark wie k-WL werden."
"Sparsifizierung der Aufmerksamkeit basierend auf Nachbarschaftsinformationen kann die Ausdruckskraft erhöhen, da sie zusätzliche Informationen über die Eingabegraphstruktur liefert."