Der Artikel beschreibt eine neue Methode namens Programm-unterstützte Destillation (PaD), die es ermöglicht, die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) auf kleinere Modelle zu übertragen.
Bisherige Ansätze wie Chain-of-Thought (CoT) Feinabstimmung haben den Nachteil, dass die von LLMs generierten Zwischenschritte oft fehlerhaft sind, was die Leistung der kleinen Modelle beeinträchtigt. PaD überwindet diese Limitation, indem es die Zwischenschritte in Form von Programmen generiert und automatisch auf Korrektheit überprüft.
Konkret beinhaltet PaD folgende Schritte:
Die Experimente zeigen, dass PaD es kleinen Modellen ermöglicht, die Leistung größerer LLMs in mathematischen Reasoning-Aufgaben zu erreichen, bei deutlich geringerer Modellgröße und Datenmenge. Zudem analysiert der Artikel, wie PaD die Ausgabe-Verteilung der Modelle effizienter einschränkt als CoT-Feinabstimmung.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xuekai Zhu,B... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.13888.pdfDomande più approfondite