核心概念
Durch iteratives Bootstrapping können große Sprachmodelle ihre Schlussfolgerungsfähigkeiten selbstständig verbessern und präzisere sowie umfassendere Schlussfolgerungsketten generieren. Außerdem werden Beispiele mit angemessenem Schwierigkeitsgrad ausgewählt, um die Leistungsfähigkeit der Modelle bei Fragen unterschiedlicher Komplexität zu steigern.
摘要
Der Artikel beschreibt eine neue Methode namens Iter-CoT (Iteratives Bootstrapping in Ketten-von-Gedanken-Aufforderung), um die Schlussfolgerungsfähigkeiten großer Sprachmodelle zu verbessern.
Bestehende Ansätze zur Ketten-von-Gedanken-Aufforderung haben drei Hauptprobleme:
- Die von Sprachmodellen generierten Schlussfolgerungsketten enthalten oft Fehler, was zu falschen Schlussfolgerungen führen kann.
- Unangemessene Beispiele (zu einfach oder zu komplex) können die Leistung der Sprachmodelle beeinflussen.
- Fehlende kontextuelle Informationen (wie falsche Schlussfolgerungsketten und Rückmeldungen) schränken die Fähigkeit der Sprachmodelle ein, aus vorherigen Fehlern zu lernen und ähnliche Fehler zu vermeiden.
Iter-CoT adressiert diese Probleme, indem es Sprachmodelle dazu befähigt, Fehler selbstständig zu korrigieren und präzisere sowie umfassendere Schlussfolgerungsketten zu generieren. Außerdem werden Beispiele mit angemessenem Schwierigkeitsgrad ausgewählt, um die Leistungsfähigkeit der Modelle bei Fragen unterschiedlicher Komplexität zu steigern.
Der Ansatz besteht aus zwei Hauptphasen:
- Aufbau eines Demonstrationspool:
a) Initialisierung: Anwendung von Zero-Shot-CoT, um Schlussfolgerungsketten und Antworten zu generieren.
b) Bootstrapping: Anleitung der Sprachmodelle, Fehler selbstständig zu korrigieren, bis die korrekten Antworten generiert werden.
c) Zusammenfassung: Anleitung der Sprachmodelle, die endgültigen Schlussfolgerungsketten basierend auf den gesammelten Informationen zu generieren.
- Inferenz: Zufälliges Sampling von N Beispielen aus dem Demonstrationspool, die als feste Demonstrationen für den gesamten Testdatensatz verwendet werden.
Die Experimente zeigen, dass Iter-CoT auf zehn Datensätzen über drei verschiedene Aufgaben hinweg deutlich bessere Ergebnisse erzielt als bestehende Methoden und neue State-of-the-Art-Leistungen erreicht.
统计
Keine relevanten Statistiken oder Kennzahlen im Artikel.
引用
Keine relevanten Zitate im Artikel.