Der herkömmliche Aufmerksamkeitsmechanismus von Transformern hat sich als dominante Methode zur Erfassung sequenzieller Abhängigkeiten etabliert, ist aber quadratisch in der Sequenzlänge n, da er eine Softmax-Funktion über den Zeilen einer n x n-Matrix von skalierten Punktprodukten anwendet.
Die vorgeschlagene Modifikation quantifiziert die paarweise Abfrage-Schlüssel-Ähnlichkeit stattdessen mit den Logarithmen skalierter Punktprodukte von Exponentialtermen. Dadurch lässt sich die Aufmerksamkeit als Zusammensetzung von Log-Summen von Exponentialtermen darstellen, die linearisierbar ist und einen festen Latenzraum ermöglicht.
Für den autoregressiven Fall können die sequenziellen Abhängigkeiten durch Log-Kumulativsummen von Exponentialtermen modelliert werden, was eine sequenzielle Anwendung mit konstantem Zeitaufwand und Speicherplatz pro Token erlaubt. Für den nicht-autoregressiven Fall können die Berechnungen ebenfalls mit konstanten Kosten pro Token durchgeführt werden.
Die Implementierung und Evaluierung des Verfahrens auf einem kleinen generativen Sprachmodell zeigt vielversprechende Ergebnisse, die jedoch noch durch umfangreichere Experimente auf größeren Modellen und Benchmarks bestätigt werden müssen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Franz A. Hei... pada arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05843.pdfPertanyaan yang Lebih Dalam