Core Concepts
Durch das Lernen aus Fehlern können die Schlussfolgerungsfähigkeiten von LLMs deutlich verbessert werden.
Abstract
Die Studie untersucht, ob die Schlussfolgerungsfähigkeiten von Large Language Models (LLMs) durch das Lernen aus Fehlern weiter verbessert werden können. Dafür wird ein Verfahren namens "LEarning from MistAkes" (LEMA) entwickelt, das wie folgt funktioniert:
Zunächst werden fehlerhafte Schlussfolgerungspfade von verschiedenen LLMs gesammelt.
Dann verwendet man GPT-4 als "Korrektor", um den Fehler im Lösungsschritt zu identifizieren, den Grund für den Fehler zu erklären und die Lösung zu korrigieren.
Zusätzlich wird eine korrekturzentrierte Evolutionsstrategie angewendet, um den Datensatz an Korrekturbeispielen zu erweitern.
Die generierten Korrekturbeispiele werden zusammen mit den normalen Aufgaben zum Finetuning der LLMs verwendet.
Die Experimente auf fünf verschiedenen LLMs und fünf anspruchsvollen Reasoning-Aufgaben zeigen, dass LEMA die Leistung im Vergleich zum reinen CoT-Finetuning konsistent verbessert. Weitere Analysen zeigen, dass die Effektivität von CoT-Daten und Korrektur-Daten nicht homogen ist - die Korrektur-Daten bringen zusätzliche Informationen, die über die CoT-Daten hinausgehen. Außerdem erweist sich die korrekturzentrierte Evolutionsstrategie als effektiver als eine zufällige Auswahl der Seed-Fragen.
Stats
Tina verdient 18,00 $ pro Stunde. Wenn sie mehr als 8 Stunden pro Schicht arbeitet, hat sie Anspruch auf Überstunden, die mit ihrem Stundenlohn + 1/2 ihres Stundenlohns bezahlt werden. Wenn sie 10 Stunden pro Tag an 5 Tagen arbeitet, wie viel Geld verdient sie dann?
Quotes
"Fehler sind die Tore zur Entdeckung."
James Joyce