Die Studie präsentiert einen neuartigen Ansatz namens Programm-unterstützte Destillation (PaD), um die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) auf kleinere Modelle zu übertragen.
Zunächst werden aus den LLMs synthetische Reasoning-Programme generiert, die dann automatisch auf Fehler überprüft werden. Anschließend werden die kleineren Modelle mit diesen Daten feinabgestimmt. Zusätzlich werden zwei Schlüsselverbesserungen eingeführt:
Selbstverfeinerung: Die kleineren Modelle können iterativ ihre Reasoning-Fähigkeiten verbessern, indem sie aus Fehlermeldungen lernen.
Schrittweise Verifikation: Beim Decoding wird ein schrittweiser Beam-Search-Ansatz verwendet, um die Zuverlässigkeit der Zwischenschritte zu bewerten und so genauere Reasoning-Ketten zu generieren.
Die Experimente zeigen, dass die mit PaD destillierten kleineren Modelle nicht nur bestimmte große Sprachmodelle übertreffen, sondern auch deutliche Verbesserungen gegenüber bisherigen Baselines erzielen - und das bei deutlich weniger Parametern und Trainingsdaten.
Die Analyse legt nahe, dass PaD den Ausgaberaum der Modelle effektiv einschränkt, was zu niedrigeren Verlusten im Vergleich zur Chain-of-Thought Feinabstimmung führt.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Xuekai Zhu,B... о arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.13888.pdfГлибші Запити