Der herkömmliche Aufmerksamkeitsmechanismus von Transformern hat sich als dominante Methode zur Erfassung sequenzieller Abhängigkeiten etabliert, ist aber quadratisch in der Sequenzlänge n, da er eine Softmax-Funktion über den Zeilen einer n x n-Matrix von skalierten Punktprodukten anwendet.
Die vorgeschlagene Modifikation quantifiziert die paarweise Abfrage-Schlüssel-Ähnlichkeit stattdessen mit den Logarithmen skalierter Punktprodukte von Exponentialtermen. Dadurch lässt sich die Aufmerksamkeit als Zusammensetzung von Log-Summen von Exponentialtermen darstellen, die linearisierbar ist und einen festen Latenzraum ermöglicht.
Für den autoregressiven Fall können die sequenziellen Abhängigkeiten durch Log-Kumulativsummen von Exponentialtermen modelliert werden, was eine sequenzielle Anwendung mit konstantem Zeitaufwand und Speicherplatz pro Token erlaubt. Für den nicht-autoregressiven Fall können die Berechnungen ebenfalls mit konstanten Kosten pro Token durchgeführt werden.
Die Implementierung und Evaluierung des Verfahrens auf einem kleinen generativen Sprachmodell zeigt vielversprechende Ergebnisse, die jedoch noch durch umfangreichere Experimente auf größeren Modellen und Benchmarks bestätigt werden müssen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Franz A. Hei... om arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05843.pdfDiepere vragen