Core Concepts
Durch die Verwendung von Heuristiken, die mit Bootstrapping-Werten gemischt werden, kann die Leistung von Offline-Verstärkungslernen-Algorithmen, die auf Wertfunktions-Bootstrapping basieren, deutlich verbessert werden.
Abstract
Der Artikel stellt eine neue Technik namens "Heuristic Blending" (HUBL) vor, die die Leistung von Offline-Verstärkungslernen-Algorithmen, die auf Wertfunktions-Bootstrapping basieren, verbessert. HUBL modifiziert die Bellman-Operatoren dieser Algorithmen, indem es die Bootstrapping-Werte teilweise durch heuristische Werte ersetzt, die mit Monte-Carlo-Rückgaben geschätzt werden. Für Trajektorien mit höheren Rückgaben verlässt sich HUBL mehr auf die heuristischen Werte und weniger auf das Bootstrapping, ansonsten stützt es sich stärker auf das Bootstrapping.
HUBL ist sehr einfach in viele bestehende Offline-Verstärkungslernen-Implementierungen zu integrieren, indem die Offline-Datensätze mit angepassten Belohnungen und Diskontfaktoren relabelt werden. Die Theorie erklärt, wie HUBL die Komplexität des Offline-Verstärkungslernens reduziert und so die Leistung in Finite-Stichproben verbessert. Empirisch zeigt der Artikel, dass HUBL die Politikqualität von vier state-of-the-art-Offline-Verstärkungslernen-Algorithmen (ATAC, CQL, TD3+BC und IQL) auf 27 Datensätzen der D4RL- und MetaWorld-Benchmarks im Durchschnitt um 9% verbessert.
Stats
Die Verwendung von HUBL kann die Leistung von Offline-Verstärkungslernen-Algorithmen im Durchschnitt um 9% verbessern.
In einigen Datensätzen, in denen die Basisalgorithmen inkonsistente Leistung zeigen, kann HUBL die Leistung um mehr als 50% relativ verbessern.
Quotes
"HUBL modifiziert die Bellman-Operatoren, indem es die Bootstrapping-Werte teilweise durch heuristische Werte ersetzt, die mit Monte-Carlo-Rückgaben geschätzt werden."
"HUBL ist sehr einfach in viele bestehende Offline-Verstärkungslernen-Implementierungen zu integrieren, indem die Offline-Datensätze mit angepassten Belohnungen und Diskontfaktoren relabelt werden."
"Die Theorie erklärt, wie HUBL die Komplexität des Offline-Verstärkungslernens reduziert und so die Leistung in Finite-Stichproben verbessert."