Core Concepts
Durch die Nutzung von Diffusions-Verhaltensmodellen zur direkten Regularisierung des Politikgradienten können wir die leistungsfähigen generativen Fähigkeiten von Diffusions-Modellen ausschöpfen, ohne das rechenintensive und zeitaufwendige Diffusions-Sampling-Schema verwenden zu müssen.
Abstract
Der Artikel stellt einen neuen Algorithmus namens "Score Regularized Policy Optimization" (SRPO) vor, der das Potenzial von Diffusions-Modellen für das Offline-Verstärkte Lernen nutzt, ohne die Nachteile des Diffusions-Samplings in Kauf nehmen zu müssen.
Zunächst werden Hintergründe zum Offline-Verstärkten Lernen und zur Verwendung von Diffusions-Modellen in diesem Kontext erläutert. Es wird gezeigt, dass bisherige Methoden, die Diffusions-Modelle einsetzen, mit einem erheblichen Rechenaufwand für das Sampling von Aktionen konfrontiert sind, was ihre praktische Anwendbarkeit einschränkt.
Der Kern des SRPO-Algorithmus besteht darin, die Gradienteninformation des Diffusions-Verhaltensmodells direkt zur Regularisierung des Politikgradienten zu verwenden, anstatt Aktionen aus dem Diffusions-Modell zu sampeln. Dazu wird gezeigt, dass der Gradient des Divergenzterms in der verhaltensregulierten Politikoptimierung im Wesentlichen mit der Score-Funktion der Verhaltenverteilung zusammenhängt. Diese kann effektiv durch ein vortrainiertes Diffusions-Modell approximiert werden.
Der Algorithmus umfasst drei Hauptkomponenten: Implizites Q-Lernen zur Kritiker-Optimierung, Diffusions-basierte Verhaltensmodellierung und die eigentliche Score-regularisierte Politikextraktion. Letztere nutzt Techniken wie das Ensemblieren von Diffusions-Zeitpunkten und das Subtrahieren eines Baseline-Terms, um die Leistung und Stabilität zu verbessern.
Die Evaluation auf D4RL-Benchmarks zeigt, dass SRPO eine deutlich höhere Recheneffizienz als andere diffusions-basierte Methoden aufweist, bei ähnlicher oder sogar besserer Leistung. Insbesondere ist die Aktions-Sampling-Geschwindigkeit über 25-mal höher. Damit eignet sich SRPO gut für rechenintensive Anwendungen wie die Robotik.
Stats
Die Aktions-Sampling-Geschwindigkeit von SRPO ist über 25-mal höher als bei anderen diffusions-basierten Methoden.
Der Rechenaufwand von SRPO beträgt nur 0,25% bis 0,01% im Vergleich zu anderen Methoden.
Quotes
"Durch die Nutzung von Diffusions-Verhaltensmodellen zur direkten Regularisierung des Politikgradienten können wir die leistungsfähigen generativen Fähigkeiten von Diffusions-Modellen ausschöpfen, ohne das rechenintensive und zeitaufwendige Diffusions-Sampling-Schema verwenden zu müssen."