Effizientes Offline-zu-Online-Reinforcement-Learning durch gezielte Exploration
Das Ziel ist es, eine Strategie für die Datensammlung während des Online-Feinabstimmungsprozesses zu entwickeln, die neue, relevante Informationen zur Verbesserung der endgültigen Einsatzpolitik liefert, ohne die Belohnungsfunktion zu verändern.