Diverse Randomized Value Functions: Eine nachweislich pessimistische Methode für Offline-Reinforcement-Learning
Die Methode der Diverse Randomized Value Functions (DRVF) schätzt die Verteilung der Q-Werte durch Verwendung von zufällig initialisierten Q-Ensembles und Diversitätsregularisierung ab. Dies führt zu einer robusten Unsicherheitsquantifizierung und ermöglicht eine nachweislich pessimistische Aktualisierung der Wertfunktion.