Основні поняття
Transformer-Modelle können gewichtete endliche Automaten (WFA) und gewichtete Baumautomaten (WTA) effizient simulieren, indem sie Kürzungen zu diesen komplexeren Modellen finden.
Анотація
Die Studie untersucht die Fähigkeit von Transformer-Modellen, gewichtete endliche Automaten (WFA) und gewichtete Baumautomaten (WTA) zu simulieren.
Für WFAs zeigen die Autoren, dass Transformer-Modelle diese exakt mit einer Tiefe logarithmisch in der Sequenzlänge simulieren können. Außerdem können sie WFAs auch approximativ mit einer Tiefe logarithmisch in der Sequenzlänge und einer konstanten Breite des MLP simulieren.
Für WTAs zeigen die Autoren, dass Transformer-Modelle diese approximativ simulieren können, wobei die Tiefe linear in der Tiefe des Eingabebaums ist. Für ausgewogene Bäume können sie jedoch eine Tiefe logarithmisch in der Länge der Eingabesequenz erreichen.
Die Ergebnisse erweitern frühere Arbeiten, die zeigten, dass Transformer-Modelle deterministische endliche Automaten (DFA) effizient simulieren können. Die Autoren argumentieren, dass Transformer-Modelle Kürzungen zu deutlich komplexeren Modellen als DFAs finden können.
In Experimenten zeigen die Autoren, dass solche Kürzungslösungen in der Praxis durch Gradientenabstieg gefunden werden können. Die Skalierung der Modellgröße mit der Sequenzlänge und Zustandsanzahl stimmt dabei mit den theoretischen Vorhersagen überein.
Статистика
Die Anzahl der Zustände des simulierten WFA beträgt n.
Die Länge der Eingabesequenz beträgt T.
Цитати
Keine relevanten Zitate identifiziert.