Der Artikel stellt eine neue Technik namens "Heuristic Blending" (HUBL) vor, die die Leistung von Offline-Verstärkungslernen-Algorithmen, die auf Wertfunktions-Bootstrapping basieren, verbessert. HUBL modifiziert die Bellman-Operatoren dieser Algorithmen, indem es die Bootstrapping-Werte teilweise durch heuristische Werte ersetzt, die mit Monte-Carlo-Rückgaben geschätzt werden. Für Trajektorien mit höheren Rückgaben verlässt sich HUBL mehr auf die heuristischen Werte und weniger auf das Bootstrapping, ansonsten stützt es sich stärker auf das Bootstrapping.
HUBL ist sehr einfach in viele bestehende Offline-Verstärkungslernen-Implementierungen zu integrieren, indem die Offline-Datensätze mit angepassten Belohnungen und Diskontfaktoren relabelt werden. Die Theorie erklärt, wie HUBL die Komplexität des Offline-Verstärkungslernens reduziert und so die Leistung in Finite-Stichproben verbessert. Empirisch zeigt der Artikel, dass HUBL die Politikqualität von vier state-of-the-art-Offline-Verstärkungslernen-Algorithmen (ATAC, CQL, TD3+BC und IQL) auf 27 Datensätzen der D4RL- und MetaWorld-Benchmarks im Durchschnitt um 9% verbessert.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania