Effiziente Generierung von synthetischen Trainingsdaten für Offline-Verstärkungslernen durch Policy-geführte Diffusion
Durch die Verwendung von Policy-geführter Diffusion können synthetische Trajektorien generiert werden, die eine hohe Wahrscheinlichkeit unter der Zielstrategie aufweisen, aber gleichzeitig die Dynamikfehler begrenzen.