Die Arbeit befasst sich mit effizienten Algorithmen für die Berechnung und Approximation von Aufmerksamkeitskernel-Regressionen. Dazu werden zwei Arten von Proxys für die Aufmerksamkeitsmatrix eingeführt:
Der erste Proxy verwendet die Matrixexponentialfunktion von A⊤A. Für diesen Proxy werden zwei Regressionsaufgaben betrachtet:
Der zweite Proxy wendet die Exponentialfunktion entrywise auf die Gram-Matrix AA⊤ an. Für dieses "Aufmerksamkeitskernel-Regressionsproblem" wird ebenfalls ein effizienter Algorithmus präsentiert, der auf Sketching und Vorkonditionierung basiert.
Die Autoren hoffen, dass diese Arbeit eine alternative Perspektive für die effiziente Approximation von Aufmerksamkeitsmatrizen bietet.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zhao Song,Ju... às arxiv.org 04-03-2024
https://arxiv.org/pdf/2308.14304.pdfPerguntas Mais Profundas