Core Concepts
Vereinfachung des Trainingsmaterials ermöglicht kleineren Sprachmodellen das Erreichen von Fähigkeiten, die normalerweise nur größeren Modellen zugeschrieben werden.
Abstract
Die Studie untersucht, ob emergente Fähigkeiten wie Zero-Shot-Lernen, die typischerweise nur in großen Sprachmodellen mit Milliarden von Parametern beobachtet werden, auch in kleineren Modellen auftreten können, wenn das Trainingsmaterial vereinfacht wird.
Dazu wurden 36 kausale Sprachmodelle mit Parameterzahlen von 1 Million bis 165 Millionen trainiert, sowohl auf einem vereinfachten Englisch-Datensatz als auch auf einem regulären Datensatz. Die Ergebnisse zeigen, dass die kleineren Modelle, die auf dem vereinfachten Datensatz trainiert wurden, in Zero-Shot-Evaluationen auf vereinfachten Testdaten eine vergleichbare oder sogar bessere Leistung erbringen als deutlich größere Modelle, die auf dem regulären Datensatz trainiert wurden. Dies deutet darauf hin, dass die Komplexität des Trainingsmaterials ein entscheidender Faktor für die Entwicklung von Zero-Shot-Fähigkeiten in kleineren Modellen ist.
Darüber hinaus zeigen die Ergebnisse, dass die kleineren Modelle, die auf dem vereinfachten Datensatz trainiert wurden, eine Potenzfunktionsbeziehung zwischen Evaluationsverlust und den drei Skalierungsfaktoren Rechenleistung, Datenmenge und Modellgröße aufweisen.
Stats
Die Leistung der einfachen 165M-Modelle auf vereinfachten Downstream-Aufgaben ist vergleichbar mit der Leistung der Pythia 1B-Modelle auf Standardaufgaben (0,64 vs. 0,61 durchschnittliche Leistung).
Die einfachen 165M-Modelle übertreffen die OPT 350M-Modelle auf Standardaufgaben (0,64 vs. 0,60 durchschnittliche Leistung).
Quotes
"Vereinfachung des Trainingsmaterials ermöglicht kleineren Sprachmodellen das Erreichen von Fähigkeiten, die normalerweise nur größeren Modellen zugeschrieben werden."
"Die Komplexität des Trainingsmaterials ist ein entscheidender Faktor für die Entwicklung von Zero-Shot-Fähigkeiten in kleineren Modellen."