Effizientes Off-Policy-Lernen mit modellbasierter intrinsischer Motivation für aktive Online-Exploration
Ein Verstärkungslernen-Algorithmus, der einen vorhersagenden Modell und Off-Policy-Lernelemente integriert, wobei ein Online-Planer verwendet wird, der durch eine neuartigkeitsbasierte Terminalwertfunktion verbessert wird, um effiziente Exploration zu ermöglichen.