Core Concepts
MaxK-GNN ist ein fortschrittliches GPU-Trainingssystem, das Algorithmus- und Systeminnovationen integriert, um die Leistung von Graphischen Neuronalen Netzen erheblich zu steigern.
Abstract
MaxK-GNN ist ein fortschrittliches GPU-Trainingssystem, das Algorithmus- und Systeminnovationen integriert, um die Leistung von Graphischen Neuronalen Netzen (GNNs) erheblich zu steigern.
Kernbeiträge:
Knotenausgewogene Merkmalsreduktion durch MaxK-Nichtlinearität: Einführung der MaxK-Nichtlinearität, die eine reguläre Spärlichkeit der Einbettungsmatrix erzeugt und theoretisch als universeller Approximator analysiert wird.
Koaleszierende, verbesserte Vorwärtsberechnung mit zeilenweisem, produktbasiertem SpGEMM-Kernel: Verwendung des CBSR-Formats für das Abrufen der rechten Matrix, was den globalen Speicherverkehr erheblich reduziert. Strategische Platzierung eines dünn besetzten Ausgabeakkumulationspuffers im gemeinsamen Speicher, um koaleszierte globale Speicherakkumulation auf der Ausgabematrix zu ermöglichen.
Optimierte Rückwärtsberechnung mit außenproduktbasiertem SSpMM-Kernel-Design: Fokussierung auf die Beschleunigung des Berechnungsmusters (dünn × dicht = dünn). Verwendung einer dichten Zeilenvorladungstechnik, um irreguläre Speicherzugriffe vom globalen Speicher in den gemeinsamen Speicher zu übertragen.
Umfangreiche Evaluierungen zeigen, dass das MaxK-GNN-System die Leistungsgrenzen gemäß Amdahl's Gesetz erreichen kann. Wir erzielen eine vergleichbare Genauigkeit wie SOTA-GNNs, aber mit einer deutlich höheren Geschwindigkeit: 3,22x/4,24x Beschleunigung (gegenüber 5,52x/7,27x) auf Reddit im Vergleich zu DGL- und GNNAdvisor-Implementierungen.
Stats
Die Berechnung und der Speicherbedarf der SpMM-Kernel sind die Hauptengpässe während des Trainingsprozesses und tragen zu über 83,6% der gesamten Trainingszeit bei.
Mit MaxK-GNN können wir den globalen Speicherverkehr für das Reddit-Dataset mit der ursprünglichen Dimension 256 und MaxK 𝑘 = 16 um 90,6% im Vergleich zu SpMM reduzieren.
Für das Reddit-Dataset mit der ursprünglichen Dimension 256 und 𝑘 = 16 können wir den globalen Speicherverbrauch um mehr als 90% im Vergleich zu herkömmlichen Ansätzen reduzieren.
Quotes
"Drastic performance improvements can only be achieved by the vertical integration and optimization of algorithms and system innovations."
"MaxK-GNN system could approach the speedup limit according to Amdahl's law."