Der Artikel stellt eine neue Technik namens "Heuristic Blending" (HUBL) vor, die die Leistung von Offline-Verstärkungslernen-Algorithmen, die auf Wertfunktions-Bootstrapping basieren, verbessert. HUBL modifiziert die Bellman-Operatoren dieser Algorithmen, indem es die Bootstrapping-Werte teilweise durch heuristische Werte ersetzt, die mit Monte-Carlo-Rückgaben geschätzt werden. Für Trajektorien mit höheren Rückgaben verlässt sich HUBL mehr auf die heuristischen Werte und weniger auf das Bootstrapping, ansonsten stützt es sich stärker auf das Bootstrapping.
HUBL ist sehr einfach in viele bestehende Offline-Verstärkungslernen-Implementierungen zu integrieren, indem die Offline-Datensätze mit angepassten Belohnungen und Diskontfaktoren relabelt werden. Die Theorie erklärt, wie HUBL die Komplexität des Offline-Verstärkungslernens reduziert und so die Leistung in Finite-Stichproben verbessert. Empirisch zeigt der Artikel, dass HUBL die Politikqualität von vier state-of-the-art-Offline-Verstärkungslernen-Algorithmen (ATAC, CQL, TD3+BC und IQL) auf 27 Datensätzen der D4RL- und MetaWorld-Benchmarks im Durchschnitt um 9% verbessert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Sinong Geng,... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2306.00321.pdfDomande più approfondite