Core Concepts
Effizientes Training von großen Sprachmodellen zur Verbesserung des Schlussfolgerns mit Verstärkungslernen.
Stats
Inspiriert von RLHF, untersuchen sie die Leistung von Algorithmen, die aus Feedback lernen.
Experteniteration, PPO und Return-Conditioned RL werden verglichen.
Alle Algorithmen zeigen vergleichbare Leistungen, wobei die Experteniteration in den meisten Fällen am besten abschneidet.
Die Experteniteration ist fast so sample-effizient wie PPO.
Die Modelle erkunden während des RL-Trainings nicht signifikant über die von SFT-Modellen bereits produzierten Lösungen hinaus.
Quotes
"Die Experteniteration erzielt die beste Leistung mit wettbewerbsfähiger Sample-Komplexität."
"RL-Feintuning verbessert sowohl die maj@1-Genauigkeit als auch die pass@n-Genauigkeit."