Verbessern der Offline-Verstärkungslernung durch Mischung von Heuristiken
Durch die Verwendung von Heuristiken, die mit Bootstrapping-Werten gemischt werden, kann die Leistung von Offline-Verstärkungslernen-Algorithmen, die auf Wertfunktions-Bootstrapping basieren, deutlich verbessert werden.