Softmax-Aufmerksamkeit mit konstantem Aufwand pro Token
Eine einfache Modifikation des herkömmlichen Aufmerksamkeitsmechanismus ermöglicht dessen Linearisierung als Zusammensetzung von Log-Summen von Exponentialtermen mit einem festen Latenzraum, was eine sequenzielle Anwendung mit konstantem Zeitaufwand und Speicherplatz pro Token ermöglicht.