Core Concepts
DiffCPS löst das Problem der begrenzten Ausdrucksfähigkeit in der gewichteten Regression durch das Diffusionsmodell.
Abstract
Das DiffCPS-Verfahren löst das Problem der begrenzten Ausdrucksfähigkeit in der gewichteten Regression durch das Diffusionsmodell. Es vereinfacht das CPS-Problem mit der Aktionsverteilung des diffusionsbasierten Modells und beweist, dass starke Dualität für diffusionsbasierte CPS-Probleme gilt. Durch die Verwendung des primal-dualen Verfahrens mit Funktionsapproximation wird das Problem gelöst. Experimentelle Ergebnisse auf dem D4RL-Benchmark zeigen die Überlegenheit des Verfahrens, das in den meisten Aufgaben bisherige SOTA-Algorithmen übertrifft.
1. Einleitung
Offline-Verstärkendes Lernen (offline RL) zielt darauf ab, eine optimale Richtlinie ohne Umweltinteraktionen zu suchen.
Die Anwendung zeitgenössischer Off-Policy-RL-Algorithmen im Offline-Kontext birgt Herausforderungen aufgrund von Verteilungsverschiebungen.
Vorherige Methoden zur Milderung dieses Problems fallen im Modell-freien Offline-RL-Setting im Allgemeinen in drei Kategorien.
Wir konzentrieren uns auf das CPS-basierte Offline-RL aufgrund seiner Konvergenzgarantie und herausragenden Leistung in einer Vielzahl von Aufgaben.
2. Diffusion Models in RL
Diffusionsmodelle bestehen aus zwei Prozessen: dem Vorwärtsdiffusionsprozess und dem Rückprozess.
Das Trainingziel besteht darin, den ELBO von Eqx0 [log p(x0)] zu maximieren.
Wir verwenden den vereinfachten Ersatzverlust Ld(θ) = Ei∼[1,T],ϵ∼N(0,I),x0∼q ||ϵ - ϵθ(xi, i)||2, um den ELBO zu approximieren.
3. Methodik
Wir zeigen, dass die begrenzte Ausdrucksfähigkeit in den AWR-Methoden die Leistung durch ein Beispiel mit einem 2D-Banditenexperiment beeinträchtigen kann.
Wir formulieren CPS über das diffusionsbasierte Modell und erhalten unser diffusionsbasiertes CPS-Problem.
Dann lösen wir DiffCPS mit dem primal-dualen Verfahren und zeigen den Preis, der in Bezug auf die Dualitätslücke von der Darstellungsfähigkeit der Parametrisierung abhängt.
4. Experimente
Wir bewerten unser DiffCPS auf dem D4RL-Benchmark und führen eine Ablationsstudie durch, um den Beitrag verschiedener Teile in DiffCPS zu bewerten.
Die Ergebnisse zeigen, dass DiffCPS in den meisten Aufgaben bisherige SOTA-Algorithmen übertrifft und einfach zu implementieren und zu optimieren ist.
Stats
In diesem Papier wird gezeigt, dass eine approximierte Lösung in einer O(1/ϵ) Anzahl von Dualiterationen erhalten werden kann.
DiffCPS erreicht überlegene oder wettbewerbsfähige Leistungen im Vergleich zu traditionellen AWR-basierten Baselines sowie zu aktuellen diffusionsbasierten Offline-RL-Methoden.
Quotes
"DiffCPS löst das begrenzte Ausdrucksproblem in der gewichteten Regression durch das Diffusionsmodell."
"Experimentelle Ergebnisse auf dem D4RL-Benchmark zeigen die Überlegenheit des Verfahrens, das in den meisten Aufgaben bisherige SOTA-Algorithmen übertrifft."