المفاهيم الأساسية
Wir modernisieren das klassische n-Gramm-Sprachmodell, indem wir es auf ein Billionen-Token-Korpus skalieren und auf unbegrenztes n erweitern. Unser Infini-gram-Motor ermöglicht effiziente Ausbildung und Inferenz in diesem extremen Setup. Das ∞-Gramm-Sprachmodell, das vom Infini-gram-Motor angetrieben wird, bietet neue Erkenntnisse über von Menschen geschriebene und von Maschinen generierte Texte und kann bestehende neuronale Sprachmodelle verbessern.
الملخص
Die Autoren präsentieren das ∞-Gramm-Sprachmodell, eine Erweiterung des klassischen n-Gramm-Sprachmodells. Im Gegensatz zu herkömmlichen n-Gramm-Modellen, die auf kleine n beschränkt sind, ermöglicht das ∞-Gramm-Modell die Verwendung eines beliebig großen n. Dies wird durch den Infini-gram-Motor ermöglicht, der auf Suffix-Arrays basiert und effiziente Abfragen von n-Grammen und ∞-Grammen ermöglicht.
Die Autoren zeigen, dass das ∞-Gramm-Modell eine hohe Genauigkeit (47%) bei der Vorhersage des nächsten Tokens in menschlich geschriebenen Texten hat, insbesondere wenn der effektive n-Wert größer ist. Im Vergleich dazu sind herkömmliche n-Gramm-Modelle mit kleinem n unzureichend, um den langen Kontext zu erfassen.
Darüber hinaus zeigen die Autoren, dass das ∞-Gramm-Modell das Potenzial hat, neuronale Sprachmodelle zu ergänzen und deren Leistung zu verbessern. Durch heuristische Interpolation zwischen den Schätzungen von ∞-Gramm und neuronalen Modellen kann die Perplexität deutlich reduziert werden, selbst bei sehr großen neuronalen Modellen.
Bei der Analyse von maschinell generiertem Text beobachten die Autoren Unregelmäßigkeiten im Übereinstimmungsgrad zwischen Maschine und ∞-Gramm in Bezug auf die Länge des Suffixes, was auf Mängel in der Vorausbildung neuronaler Sprachmodelle und den Positionseinbettungen von Transformern hinweisen könnte.
الإحصائيات
Das ∞-Gramm-Modell wurde auf einem Korpus von 5 Billionen Token trainiert, was das bisher größte n-Gramm-Modell ist.
Der Infini-gram-Motor benötigt 7 Bytes Speicherplatz pro Token (3,5-fache Überlagerung im Vergleich zum Rohdatensatz) und kann auf einem Datensatz mit 1,4 Billionen Token in etwa 2 Tagen auf einem einzelnen 128-Kern-CPU-Knoten mit 10 TB Festplattenspeicher erstellt werden.
Die durchschnittliche Inferenzlatenz beträgt weniger als 20 Millisekunden für das Zählen eines n-Gramms und das Finden aller Vorkommen (unabhängig von der Größe von n oder der Häufigkeit des n-Gramms) und weniger als 200 Millisekunden für alle anderen Abfragetypen, einschließlich ∞-Gramm-Sprachmodellierung und Dekodierung.
اقتباسات
"Sind n-Gramm-Sprachmodelle in dieser Ära neuronaler Großsprachmodelle (LLMs) immer noch relevant? Unsere Antwort lautet ja, und wir zeigen ihren Wert sowohl für die Textanalyse als auch für die Verbesserung neuronaler LLMs."
"Stattdessen finden wir erheblichen Wert darin, den Wert von n zu erhöhen. Wie in Abbildung 1 illustriert, ist ein 5-Gramm-Modell bei der Vorhersage des nächsten Tokens schlecht, da es den reichen Kontext im Prompt verwirft; während, wenn wir ein größeres n verwenden können (in diesem Fall n = 16), wird die Vorhersage viel genauer."