Der Artikel untersucht, wie man durch strukturiertes Pruning und dynamisches Batchladen leistungsfähige, kompakte Sprachmodelle mit deutlich weniger Rechenaufwand als das Training von Grund auf entwickeln kann.
Zunächst wird ein neuartiger strukturierter Pruning-Algorithmus vorgestellt, der ein Quellmodell auf eine vorgegebene Zielarchitektur komprimiert. Dieser Algorithmus sucht nach Substrukturen im Quellmodell, die die Leistung maximal erhalten, während sie den vorgegebenen Architekturvorgaben entsprechen.
Anschließend wird ein dynamisches Batchladen-Verfahren entwickelt, das die Trainingsdaten aus den verschiedenen Domänen proportional zu ihrer Verlustreduzierungsrate lädt. Dadurch wird eine effizientere Nutzung der Daten und eine beschleunigte Leistungsverbesserung erreicht.
Die Wirksamkeit des Ansatzes wird durch das Prunen eines LLaMA2-7B-Modells in zwei kleinere Modelle mit 1,3 Milliarden und 2,7 Milliarden Parametern demonstriert. Diese "Sheared-LLaMA"-Modelle übertreffen andere Open-Source-Modelle ähnlicher Größe in einer Vielzahl von Downstream-Aufgaben und beim Instruction Tuning, bei gleichzeitig nur 3% des Rechenaufwands im Vergleich zum Training von Grund auf.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mengzhou Xia... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2310.06694.pdfYêu cầu sâu hơn