Grunnleggende konsepter
Programm-unterstützte Destillation (PaD) ermöglicht es kleinen Sprachmodellen, Schlussfolgerungsfähigkeiten besser zu erlernen als durch Chain-of-Thought Feinabstimmung.
Sammendrag
Der Artikel beschreibt eine neue Methode namens Programm-unterstützte Destillation (PaD), die es ermöglicht, die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) auf kleinere Modelle zu übertragen.
Bisherige Ansätze wie Chain-of-Thought (CoT) Feinabstimmung haben den Nachteil, dass die von LLMs generierten Zwischenschritte oft fehlerhaft sind, was die Leistung der kleinen Modelle beeinträchtigt. PaD überwindet diese Limitation, indem es die Zwischenschritte in Form von Programmen generiert und automatisch auf Korrektheit überprüft.
Konkret beinhaltet PaD folgende Schritte:
- Synthese von Programm-basierten Trainingsdaten aus LLMs: Durch Vorgabe von Kontextbeispielen induzieren die LLMs Programm-basierte Lösungsschritte, die dann automatisch auf Korrektheit überprüft werden.
- Feinabstimmung kleiner Modelle: Die gereinigten Trainingsdaten werden zum Feinabstimmen kleiner Modelle verwendet.
- Selbstverbesserung: Die kleinen Modelle lernen iterativ, fehlerhafte Lösungsschritte zu korrigieren.
- Schrittweise Verifikation: Beim Generieren der Lösungsschritte wird eine schrittweise Bewertung und Auswahl der zuverlässigsten Schritte durchgeführt.
Die Experimente zeigen, dass PaD es kleinen Modellen ermöglicht, die Leistung größerer LLMs in mathematischen Reasoning-Aufgaben zu erreichen, bei deutlich geringerer Modellgröße und Datenmenge. Zudem analysiert der Artikel, wie PaD die Ausgabe-Verteilung der Modelle effizienter einschränkt als CoT-Feinabstimmung.
Statistikk
Das Gewicht der Brownies ist 3 mal so hoch wie zuvor.
Das Gesamtgewicht zu diesem Zeitpunkt beträgt 8 Pfund.
Ken fügte dann weitere 2 Pfund Jelly Bohnen hinzu.
Das aktuelle Gewicht beträgt 10 Pfund.
Das Endgewicht beträgt 16 Pfund.
Sitater
"LLMs frequently produce faulty reasoning, i.e., they may provide the correct final answer but incorrect intermediate reasoning steps."
"PaD employs self-refinement and step-by-step verification to further learning and guide the reasoning generation, respectively."