Die Studie stellt MambaByte, ein tokenfreies Sprachmodell auf Basis des Mamba-Architektur, vor. Im Gegensatz zu Transformern, deren Speicherbedarf linear mit der Sequenzlänge wächst, hat Mamba einen großen, festen Speicherzustand, der unabhängig von der Kontextlänge ist. Dies ermöglicht eine effiziente Modellierung von Bytesequenzen ohne Kompromisse bei der Modellgröße.
Die Experimente zeigen, dass MambaByte in Sprachmodellierungsaufgaben mit Transformern und anderen Bytemodellen konkurrenzfähig ist und sogar bessere Leistung erzielt. Darüber hinaus ist MambaByte deutlich robuster gegenüber Rechtschreibfehlern und Morphologievarianten als tokenbasierte Modelle.
Um die Inferenzeffizienz von MambaByte weiter zu verbessern, schlagen die Autoren eine Methode des spekulativen Decodierens vor. Dabei wird ein kleineres Mamba-Modell für ein schnelles Subwort-Drafting verwendet, gefolgt von einer Überprüfung und Korrektur durch das größere MambaByte-Modell. Dieser Ansatz ermöglicht eine ähnliche Decodiergeschwindigkeit wie das tokenbasierte Mamba-Modell, bei gleichzeitig besserer Leistung und Robustheit.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Junxiong Wan... um arxiv.org 04-04-2024
https://arxiv.org/pdf/2401.13660.pdfTiefere Fragen