Durch die Verwendung von Policy-geführter Diffusion können synthetische Trajektorien generiert werden, die eine hohe Wahrscheinlichkeit unter der Zielstrategie aufweisen, aber gleichzeitig die Dynamikfehler begrenzen.
Durch adversarielle Datenerweiterung können die Auswirkungen von Verhaltenspolitiken auf das Lernen von Aufgabenrepräsentationen effektiv eliminiert werden, was zu einer robusten und effektiven Identifizierung von Aufgaben und einer zufriedenstellenden Out-of-Distribution-Generalisierung führt.