Die Arbeit befasst sich mit effizienten Algorithmen für die Berechnung und Approximation von Aufmerksamkeitskernel-Regressionen. Dazu werden zwei Arten von Proxys für die Aufmerksamkeitsmatrix eingeführt:
Der erste Proxy verwendet die Matrixexponentialfunktion von A⊤A. Für diesen Proxy werden zwei Regressionsaufgaben betrachtet:
Der zweite Proxy wendet die Exponentialfunktion entrywise auf die Gram-Matrix AA⊤ an. Für dieses "Aufmerksamkeitskernel-Regressionsproblem" wird ebenfalls ein effizienter Algorithmus präsentiert, der auf Sketching und Vorkonditionierung basiert.
Die Autoren hoffen, dass diese Arbeit eine alternative Perspektive für die effiziente Approximation von Aufmerksamkeitsmatrizen bietet.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zhao Song,Ju... alle arxiv.org 04-03-2024
https://arxiv.org/pdf/2308.14304.pdfDomande più approfondite