Effiziente große Sprachmodelle durch kompakte Kernelisierung
Durch den Einsatz von gewichteter Quasi-Monte-Carlo-Methoden und Diskrete-Kosinus-Transformation (DCT) können wir die Aufmerksamkeitsmechanismen von Transformern effizient in den Frequenzbereich überführen und so deren Komplexität von quadratisch auf linear reduzieren, ohne dabei die Leistung zu beeinträchtigen.