The author proposes the DiffCPS algorithm to address the limited expressivity problem in offline reinforcement learning using diffusion-based policies and a primal-dual method.
DiffCPS löst das Problem der begrenzten Ausdrucksfähigkeit in der gewichteten Regression durch das Diffusionsmodell.