Effiziente Transformers mit linearer relativer Positionscodierung durch Erlernen einer Fourier-Transformation
FourierLearner-Transformers (FLTs) ermöglichen eine effiziente Anpassung der relativen Positionscodierung (RPE) in Performern - kernelbasierten impliziten Aufmerksamkeits-Transformers mit linearer Zeit- und Raumkomplexität. Im Gegensatz zu anderen Architekturen, die Performer mit RPEs kombinieren, behalten FLTs die lineare Komplexität der Aufmerksamkeitsmodule bei, ohne zusätzliche strukturelle Annahmen bezüglich der RPE-Maske zu treffen.