Eine gründliche Analyse des Aufmerksamkeitsmechanismus durch die Linse der Austauschbarkeit und latenter Variablenmodelle
Der Aufmerksamkeitsmechanismus in Transformern kann als eine "Graubox"-Methode charakterisiert werden, die die handgeferchte Architektur, die durch ein latentes Variablenmodell induziert wird, und den lernbaren Parameter, der aus Daten geschätzt wird, mit beweisbaren Näherungs-, Verallgemeinerungs- und Optimierungsgarantien vereint.