Die Arbeit befasst sich mit effizienten Algorithmen für die Berechnung und Approximation von Aufmerksamkeitskernel-Regressionen. Dazu werden zwei Arten von Proxys für die Aufmerksamkeitsmatrix eingeführt:
Der erste Proxy verwendet die Matrixexponentialfunktion von A⊤A. Für diesen Proxy werden zwei Regressionsaufgaben betrachtet:
Der zweite Proxy wendet die Exponentialfunktion entrywise auf die Gram-Matrix AA⊤ an. Für dieses "Aufmerksamkeitskernel-Regressionsproblem" wird ebenfalls ein effizienter Algorithmus präsentiert, der auf Sketching und Vorkonditionierung basiert.
Die Autoren hoffen, dass diese Arbeit eine alternative Perspektive für die effiziente Approximation von Aufmerksamkeitsmatrizen bietet.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zhao Song,Ju... a las arxiv.org 04-03-2024
https://arxiv.org/pdf/2308.14304.pdfConsultas más profundas