Erlernen von Belohnungen durch bedingte Videodiffusion für effizientes visuelles Reinforcement Learning
Diffusion Reward ist ein neuartiger Rahmen, der Belohnungen aus Expertvideos über bedingte Videodiffusionsmodelle für die Lösung komplexer visueller RL-Probleme erlernt. Der Schlüsseleinblick ist, dass eine geringere generative Diversität beobachtet wird, wenn man auf Experttrajektorien bedingt ist. Diffusion Reward formalisiert dies durch den Negativwert der bedingten Entropie, der die produktive Erkundung von expertenähnlichen Verhaltensweisen fördert.