Der Artikel untersucht, wie man durch strukturiertes Pruning und dynamisches Batchladen leistungsfähige, kompakte Sprachmodelle mit deutlich weniger Rechenaufwand als das Training von Grund auf entwickeln kann.
Zunächst wird ein neuartiger strukturierter Pruning-Algorithmus vorgestellt, der ein Quellmodell auf eine vorgegebene Zielarchitektur komprimiert. Dieser Algorithmus sucht nach Substrukturen im Quellmodell, die die Leistung maximal erhalten, während sie den vorgegebenen Architekturvorgaben entsprechen.
Anschließend wird ein dynamisches Batchladen-Verfahren entwickelt, das die Trainingsdaten aus den verschiedenen Domänen proportional zu ihrer Verlustreduzierungsrate lädt. Dadurch wird eine effizientere Nutzung der Daten und eine beschleunigte Leistungsverbesserung erreicht.
Die Wirksamkeit des Ansatzes wird durch das Prunen eines LLaMA2-7B-Modells in zwei kleinere Modelle mit 1,3 Milliarden und 2,7 Milliarden Parametern demonstriert. Diese "Sheared-LLaMA"-Modelle übertreffen andere Open-Source-Modelle ähnlicher Größe in einer Vielzahl von Downstream-Aufgaben und beim Instruction Tuning, bei gleichzeitig nur 3% des Rechenaufwands im Vergleich zum Training von Grund auf.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問