Der Artikel beschreibt eine neue Methode namens Programm-unterstützte Destillation (PaD), die es ermöglicht, die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) auf kleinere Modelle zu übertragen.
Bisherige Ansätze wie Chain-of-Thought (CoT) Feinabstimmung haben den Nachteil, dass die von LLMs generierten Zwischenschritte oft fehlerhaft sind, was die Leistung der kleinen Modelle beeinträchtigt. PaD überwindet diese Limitation, indem es die Zwischenschritte in Form von Programmen generiert und automatisch auf Korrektheit überprüft.
Konkret beinhaltet PaD folgende Schritte:
Die Experimente zeigen, dass PaD es kleinen Modellen ermöglicht, die Leistung größerer LLMs in mathematischen Reasoning-Aufgaben zu erreichen, bei deutlich geringerer Modellgröße und Datenmenge. Zudem analysiert der Artikel, wie PaD die Ausgabe-Verteilung der Modelle effizienter einschränkt als CoT-Feinabstimmung.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Xuekai Zhu,B... pada arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.13888.pdfPertanyaan yang Lebih Dalam