Das Paper führt das (N, K)-Puzzle als generalisierte Version des klassischen 24-Puzzles ein. Dieses Testbett bietet Flexibilität durch anpassbare Parameter N und K und ermöglicht es, die Wirksamkeit, Leistung und Skalierbarkeit von Reinforcement-Learning-Strategien systematisch zu untersuchen.
Die Autoren evaluieren etablierte Reinforcement-Learning-Algorithmen wie Proximal Policy Optimization (PPO) sowie neuere Ansätze wie Identity Policy Optimization (IPO) und Direct Policy Optimization (DPO) auf dem (N, K)-Puzzle. Sie stellen fest, dass PPO mit Grundwahrheitsbelohnung die Leistung kontinuierlich verbessert, während PPO mit einem trainierten Belohnungsmodell in späteren Phasen an Leistung verliert, da das Modell beginnt, das Belohnungsmodell "auszutricksen". Im Gegensatz dazu zeigen DPO und IPO zwar eine begrenzte Generalisierung von der Verteilungsaufgabe zur Außerverteilungsaufgabe, sind aber einfacher in der Implementierung.
Die Autoren sehen großes Potenzial für weitere Erforschung des (N, K)-Puzzles als standardisiertes und kostengünstiges Testbett, um die effektivsten Strategien für das Reinforcement-Learning-Training in generativen Sprachmodellen zu identifizieren.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yufeng Zhang... at arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07191.pdfDeeper Inquiries