Dynamisch anpassbare Transformer-Modelle mit rekurrenter Verarbeitung
In dieser Arbeit untersuchen wir zwei Hauptansätze, um Transformers mit einem rekurrenten Mechanismus zu erweitern: (1) die Einbindung einer tiefenweisen Rekurrenz ähnlich wie bei Universal Transformers und (2) die Einbindung einer zeitlichen Rekurrenz auf Chunk-Ebene wie bei Temporal Latent Bottleneck. Wir schlagen außerdem neuartige Erweiterungen und Kombinationen dieser Methoden vor, wie z.B. einen globalen, mittelwertbasierten dynamischen Haltemechanismus für Universal Transformer und eine Erweiterung von Temporal Latent Bottleneck mit Elementen aus Universal Transformer. Wir vergleichen die Modelle und untersuchen ihre induktiven Verzerrungen in mehreren diagnostischen Aufgaben wie Long Range Arena (LRA), Flip-Flop-Sprachmodellierung, ListOps und logische Schlussfolgerung.