Bestehende Offline-Reinforcement-Learning-Algorithmen scheitern oft, wenn Datensätze aus verschiedenen Quellen kombiniert werden, da ihre Leistung erheblich abnimmt. Einfache Lösungen wie eine Vergrößerung der Netzwerkarchitektur können jedoch dieses Paradoxon überwinden und sogar die Leistung auf Standard-Benchmarks übertreffen.
Die Autoren entwickeln minimax-optimale und recheneffiziente Algorithmen für verteilungsrobustes Offline-Reinforcement-Learning mit linearer Funktionsapproximation. Sie zeigen, dass Funktionsapproximation in diesem Kontext wesentlich herausfordernder ist als im Standard-Offline-Reinforcement-Learning und präsentieren neuartige Techniken zur Analyse und Verbesserung der Algorithmen.
Das (N, K)-Puzzle ist ein generalisierter Testfall, der Sprachmodelle herausfordert, eine Zielzahl K mit N ganzen Zahlen zu erreichen, und dient als kostengünstiges und standardisiertes Testbett zur Bewertung und zum Vergleich von Reinforcement-Learning-Algorithmen.