Core Concepts
Transformer-Modelle können lernen, Rechenleistung dynamisch und kontextabhängig über die Eingabesequenz und Modelltiefe zuzuweisen, um die Gesamtrechenleistung zu reduzieren, ohne die Leistung zu beeinträchtigen.
Abstract
Die Studie präsentiert einen Ansatz namens "Mixture-of-Depths" (MoD), bei dem Transformer-Modelle lernen, Rechenleistung dynamisch und kontextabhängig zuzuweisen. Anstatt die Rechenleistung gleichmäßig über die Eingabesequenz zu verteilen, entscheidet das Modell für jede Position und Schicht, ob die vollständige Transformer-Berechnung durchgeführt oder eine kostengünstigere Residualverbindung verwendet werden soll.
Die Autoren zeigen, dass MoD-Transformer die Gesamtrechenleistung pro Durchlauf deutlich reduzieren können, ohne die Leistung zu beeinträchtigen. Teilweise können sie sogar bessere Ergebnisse als die Baseline-Transformer erzielen, bei gleichzeitig deutlich geringerer Rechenleistung pro Durchlauf und damit schnellerer Ausführung.
Der Schlüssel dazu ist ein gelernter Routing-Mechanismus, der für jedes Token und jede Schicht entscheidet, ob die vollständige Transformer-Berechnung durchgeführt oder eine Residualverbindung verwendet werden soll. Dieser Routing-Mechanismus wird so trainiert, dass er die kritischen Tokens für die Vorhersage identifiziert und diese bevorzugt verarbeitet.
Darüber hinaus zeigen die Autoren, wie der MoD-Ansatz mit Mixture-of-Experts-Architekturen kombiniert werden kann, um die Effizienzgewinne weiter zu steigern.
Stats
Die Mixture-of-Depths-Transformer können bei gleichem Rechenaufwand (isoFLOP) bis zu 1,5% bessere Ergebnisse erzielen als die Baseline-Transformer.
Manche MoD-Varianten benötigen bis zu 50% weniger FLOPs pro Durchlauf als die isoFLOP-optimale Baseline, bei gleichzeitig besserer Leistung.
Die Routing-Entscheidungen der MoD-Transformer zeigen, dass manche Tokens bevorzugt durch mehr Schichten verarbeitet werden, während andere Tokens effizient umgangen werden können.
Quotes
"Transformer-basierte Sprachmodelle verteilen FLOPs gleichmäßig über Eingabesequenzen. In dieser Arbeit zeigen wir, dass Transformer stattdessen lernen können, FLOPs (oder Rechenleistung) dynamisch bestimmten Positionen in einer Sequenz zuzuweisen und die Zuweisung über die Schichten des Modells zu optimieren."
"Nicht alle Probleme erfordern die gleiche Menge an Zeit oder Aufwand zum Lösen. Analog dazu erfordern in der Sprachmodellierung nicht alle Tokens und Sequenzen die gleiche Zeit oder den gleichen Aufwand, um eine Vorhersage genau zu treffen. Und doch wenden Transformer-Modelle die gleiche Menge an Rechenleistung pro Token in einem Durchlauf auf."