Die Arbeit befasst sich mit effizienten Algorithmen für die Berechnung und Approximation von Aufmerksamkeitskernel-Regressionen. Dazu werden zwei Arten von Proxys für die Aufmerksamkeitsmatrix eingeführt:
Der erste Proxy verwendet die Matrixexponentialfunktion von A⊤A. Für diesen Proxy werden zwei Regressionsaufgaben betrachtet:
Der zweite Proxy wendet die Exponentialfunktion entrywise auf die Gram-Matrix AA⊤ an. Für dieses "Aufmerksamkeitskernel-Regressionsproblem" wird ebenfalls ein effizienter Algorithmus präsentiert, der auf Sketching und Vorkonditionierung basiert.
Die Autoren hoffen, dass diese Arbeit eine alternative Perspektive für die effiziente Approximation von Aufmerksamkeitsmatrizen bietet.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Zhao Song,Ju... klokken arxiv.org 04-03-2024
https://arxiv.org/pdf/2308.14304.pdfDypere Spørsmål