Der Artikel untersucht die Idee, Große Sprachmodelle (LLMs) direkt über stark komprimiertem Text zu trainieren. Standardmäßige Subwort-Tokenizer erreichen nur eine geringe Kompressionsrate, während neuronale Textkompressoren deutlich höhere Kompressionsraten erzielen können. Wenn es möglich wäre, LLMs direkt über solch komprimiertem Text zu trainieren, hätte dies Vorteile in Bezug auf Trainings- und Einsatzeffizienz sowie den Umgang mit langen Textspannen.
Das Haupthindernis ist, dass starke Kompression dazu führt, dass die Ausgabe undurchsichtig und nicht gut zum Lernen geeignet ist. Die Autoren finden, dass Text, der naiv über Arithmetisches Codieren komprimiert wird, von LLMs nicht gut erlernt werden kann. Um dies zu überwinden, schlagen sie die "Equal-Info Windows"-Technik vor, bei der der Text in Blöcke segmentiert wird, die jeweils die gleiche Bitlänge aufweisen. Mit dieser Methode zeigen sie, dass effektives Lernen über neuronal komprimiertem Text möglich ist und sich mit zunehmender Modellgröße verbessert. Ihre besten Modelle übertreffen sogar Byte-basierte Basismodelle in Bezug auf Perplexität und Inferenzgeschwindigkeit. Allerdings schneiden ihre Modelle schlechter ab als Subwort-Tokenizer, was vermutlich an den relativ instabilen Abbildungen zwischen Wörtern und Tokens liegt, die ihre neuronalen Tokenizer erzeugen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Brian Lester... alle arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03626.pdfDomande più approfondite