Core Concepts
Eine neuartige Selbstkritik-Pipeline, die sowohl die mathematischen als auch die sprachlichen Fähigkeiten von großen Sprachmodellen durch selbstgeneriertes Feedback verbessert, ohne auf externe Aufsichtsmodelle oder manuelle Annotationen angewiesen zu sein.
Abstract
Die Studie stellt eine neuartige Selbstkritik-Pipeline vor, die darauf abzielt, sowohl die mathematischen als auch die sprachlichen Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern, ohne dass eine Seite auf Kosten der anderen leidet.
Die Kernelemente sind:
- Entwicklung eines Math-Critique-Modells, das auf dem LLM selbst basiert und Feedback zu mathematischen Antworten liefert
- Zweistufiges Finetuning-Verfahren:
- Rejective Fine-Tuning (RFT): Verwirft Antworten, die den Math-Critique-Standards nicht entsprechen, und verfeinert den Rest
- Direct Preference Optimization (DPO): Lernt direkt aus Paaren korrekter und falscher Antworten, die durch Math-Critique verfeinert wurden
- Erstellung des MATHUSEREVAL-Benchmarks, der realitätsnahe und anspruchsvolle mathematische Probleme enthält
Die Experimente zeigen, dass die Selbstkritik-Pipeline die mathematischen Fähigkeiten des ChatGLM3-32B-Modells signifikant verbessert, ohne die sprachlichen Fähigkeiten zu beeinträchtigen. Das Modell übertrifft sogar deutlich größere Modelle auf verschiedenen Benchmarks.
Stats
Die Länge der ersten Kurve der Strecke beträgt 3,14 × 72,6 = 227,964 Meter.
Die Länge der zweiten Kurve der Strecke beträgt 3,14 × (72,6 ÷ 2 + 1,25) × 2 = 235,814 Meter.
Der Unterschied zwischen den beiden Kurven beträgt 235,814 - 227,964 = 7,85 Meter.
Quotes
"Eine neuartige Selbstkritik-Pipeline, die darauf abzielt, sowohl die mathematischen als auch die sprachlichen Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern, ohne dass eine Seite auf Kosten der anderen leidet."
"Entwicklung eines Math-Critique-Modells, das auf dem LLM selbst basiert und Feedback zu mathematischen Antworten liefert."
"Zweistufiges Finetuning-Verfahren: Rejective Fine-Tuning (RFT) und Direct Preference Optimization (DPO)."