Die Arbeit befasst sich mit effizienten Algorithmen für die Berechnung und Approximation von Aufmerksamkeitskernel-Regressionen. Dazu werden zwei Arten von Proxys für die Aufmerksamkeitsmatrix eingeführt:
Der erste Proxy verwendet die Matrixexponentialfunktion von A⊤A. Für diesen Proxy werden zwei Regressionsaufgaben betrachtet:
Der zweite Proxy wendet die Exponentialfunktion entrywise auf die Gram-Matrix AA⊤ an. Für dieses "Aufmerksamkeitskernel-Regressionsproblem" wird ebenfalls ein effizienter Algorithmus präsentiert, der auf Sketching und Vorkonditionierung basiert.
Die Autoren hoffen, dass diese Arbeit eine alternative Perspektive für die effiziente Approximation von Aufmerksamkeitsmatrizen bietet.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Zhao Song,Ju... о arxiv.org 04-03-2024
https://arxiv.org/pdf/2308.14304.pdfГлибші Запити