Der Artikel beschreibt eine neue Methode namens Programm-unterstützte Destillation (PaD), die es ermöglicht, die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) auf kleinere Modelle zu übertragen.
Bisherige Ansätze wie Chain-of-Thought (CoT) Feinabstimmung haben den Nachteil, dass die von LLMs generierten Zwischenschritte oft fehlerhaft sind, was die Leistung der kleinen Modelle beeinträchtigt. PaD überwindet diese Limitation, indem es die Zwischenschritte in Form von Programmen generiert und automatisch auf Korrektheit überprüft.
Konkret beinhaltet PaD folgende Schritte:
Die Experimente zeigen, dass PaD es kleinen Modellen ermöglicht, die Leistung größerer LLMs in mathematischen Reasoning-Aufgaben zu erreichen, bei deutlich geringerer Modellgröße und Datenmenge. Zudem analysiert der Artikel, wie PaD die Ausgabe-Verteilung der Modelle effizienter einschränkt als CoT-Feinabstimmung.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Xuekai Zhu,B... às arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.13888.pdfPerguntas Mais Profundas