Der Artikel präsentiert nanoLM, ein kostengünstiges Benchmark-System für das Studium Großer Sprachmodelle (LLMs). Der Kern des Ansatzes ist die µScaling-Methode, die es ermöglicht, den Trainingsverlust großer Modelle genau vorherzusagen, ohne diese tatsächlich trainieren zu müssen.
Zunächst wird eine Reihe kleiner Proxy-Modelle mit unterschiedlichen Breiten trainiert und deren Verluste gemessen. Basierend auf diesen Daten wird eine Skalierungsfunktion (Potenzgesetz) angepasst, die den Verlust großer Modelle präzise vorhersagt. Dies funktioniert, indem die µP-Methode genutzt wird, um die optimalen hyperskalierbaren Hyperparameter für die Proxy-Modelle zu finden.
Durch diese Verlustvorhersage können Forscher verschiedene Modelldesigns und -architekturen auf großen Skalen vergleichen, ohne die großen Modelle tatsächlich trainieren zu müssen. Dies macht die Forschung an LLMs deutlich kostengünstiger und zugänglicher.
Das nanoLM-Benchmark umfasst außerdem eine sorgfältig kuratierte Vortrainingsdatensammlung mit 100 Milliarden bis 2 Billionen Token, die verschiedene Domänen abdeckt. Zusammen mit den Implementierungen der Modellarchitekturen und der µScaling-Methode bietet nanoLM eine umfassende Plattform für LLM-Studien.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yiqun Yao,Si... klo arxiv.org 04-09-2024
https://arxiv.org/pdf/2304.06875.pdfSyvällisempiä Kysymyksiä