Warum schneiden kleine Sprachmodelle schlechter ab? Untersuchung der Sättigung von Sprachmodellen durch den Softmax-Flaschenhals
Die Leistungssättigung kleiner Sprachmodelle kann durch einen Mismatch zwischen der niedrigen Dimensionalität ihrer versteckten Schichten und der hohen Rangzahl der Zielwahrscheinlichkeitsverteilung für kontextuelle Vorhersagen erklärt werden. Dies führt zu einer Degeneration der Darstellungen in der linearen Vorhersagekopfschicht, was die Leistung beeinträchtigt.