Der Artikel stellt eine neuartige Architektur namens Tandem-Transformatoren vor, die darauf abzielt, die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) zu verbessern.
Herkömmliche LLMs erzeugen Tokens sequenziell, was die Inferenzgeschwindigkeit inherent begrenzt. Tandem-Transformatoren bestehen aus zwei Modellen: einem kleinen autoregessiven Modell (MS) und einem großen Modell (ML), das im Blockverfahren arbeitet.
MS erzeugt zunächst die ersten γ Tokens autoregessiv, während es die Darstellungen von ML für die vorherigen Tokens nutzt. Anschließend verarbeitet ML die von MS erzeugten Tokens und aktualisiert die Darstellungen. Dieser Prozess wiederholt sich, bis die vollständige Antwort generiert ist.
Die Experimente zeigen, dass Tandem-Transformatoren, bestehend aus PaLM2-Bison und PaLM2-Gecko, eine um 3,3% höhere Genauigkeit bei der Vorhersage des nächsten Tokens aufweisen als ein eigenständiges PaLM2-Gecko-Modell. Gleichzeitig ist das Tandem-Modell 1,16-mal schneller als ein PaLM2-Otter-Modell mit vergleichbarer Leistung auf Downstream-Aufgaben.
Darüber hinaus kann das Tandem-Modell in das SPEED-Framework (Speculative Decoding) integriert werden, um die Inferenzgeschwindigkeit weiter zu erhöhen, ohne die Ausgabequalität zu beeinträchtigen. Hier ist das Tandem-Modell etwa 1,14-mal schneller als ein eigenständiges PaLM2-Gecko-Modell in SPEED.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Aishwarya P ... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2402.08644.pdfDybere Forespørgsler