핵심 개념
Tandem-Transformatoren kombinieren ein kleines autoregessives Modell mit einem großen Modell, das im Blockverfahren arbeitet, um die Inferenzgeschwindigkeit großer Sprachmodelle zu verbessern, ohne dabei die Genauigkeit signifikant zu beeinträchtigen.
초록
Der Artikel stellt eine neuartige Architektur namens Tandem-Transformatoren vor, die darauf abzielt, die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) zu verbessern.
Herkömmliche LLMs erzeugen Tokens sequenziell, was die Inferenzgeschwindigkeit inherent begrenzt. Tandem-Transformatoren bestehen aus zwei Modellen: einem kleinen autoregessiven Modell (MS) und einem großen Modell (ML), das im Blockverfahren arbeitet.
MS erzeugt zunächst die ersten γ Tokens autoregessiv, während es die Darstellungen von ML für die vorherigen Tokens nutzt. Anschließend verarbeitet ML die von MS erzeugten Tokens und aktualisiert die Darstellungen. Dieser Prozess wiederholt sich, bis die vollständige Antwort generiert ist.
Die Experimente zeigen, dass Tandem-Transformatoren, bestehend aus PaLM2-Bison und PaLM2-Gecko, eine um 3,3% höhere Genauigkeit bei der Vorhersage des nächsten Tokens aufweisen als ein eigenständiges PaLM2-Gecko-Modell. Gleichzeitig ist das Tandem-Modell 1,16-mal schneller als ein PaLM2-Otter-Modell mit vergleichbarer Leistung auf Downstream-Aufgaben.
Darüber hinaus kann das Tandem-Modell in das SPEED-Framework (Speculative Decoding) integriert werden, um die Inferenzgeschwindigkeit weiter zu erhöhen, ohne die Ausgabequalität zu beeinträchtigen. Hier ist das Tandem-Modell etwa 1,14-mal schneller als ein eigenständiges PaLM2-Gecko-Modell in SPEED.
통계
Das Tandem-Modell aus PaLM2-Bison und PaLM2-Gecko zeigt eine 3,3%ige Verbesserung der Genauigkeit bei der Vorhersage des nächsten Tokens im Vergleich zu einem eigenständigen PaLM2-Gecko-Modell.
Das Tandem-Modell ist 1,16-mal schneller als ein PaLM2-Otter-Modell mit vergleichbarer Leistung auf Downstream-Aufgaben.
Das Tandem-Modell in SPEED ist etwa 1,14-mal schneller als ein eigenständiges PaLM2-Gecko-Modell in SPEED.
인용구
"Tandem Transformers uniquely combines (1) a small autoregressive model and (2) a large model operating in block mode (processing multiple tokens simultaneously)."
"On the PaLM2 pretraining dataset, a Tandem of PaLM2-Bison and PaLM2-Gecko demonstrates a 3.3% improvement in next-token prediction accuracy over a standalone PaLM2-Gecko, offering a 1.16× speedup compared to a PaLM2-Otter model with comparable downstream performance."
"We further incorporate the Tandem model within the speculative decoding (SPEED) framework where the large model validates tokens from the small model. This ensures that the Tandem of PaLM2-Bison and PaLM2-Gecko achieves substantial speedup (around 1.14× faster than using vanilla PaLM2-Gecko in SPEED) while maintaining identical downstream task accuracy."