Der Artikel präsentiert einen Ansatz zur Generierung von synthetischen Trainingsdaten für Offline-Verstärkungslernen, der als Policy-geführte Diffusion (PGD) bezeichnet wird.
Zunächst wird die Herausforderung des Offline-Verstärkungslernens diskutiert, bei der die Verteilung der gesammelten Daten (Verhaltenspolitik) von der Zielverteilung (Zielpolitik) abweicht. Dies führt zu Problemen wie Überschätzungsverzerrung.
Bisherige Ansätze zur Generierung von synthetischen Daten, wie autoregressive Weltmodelle, leiden unter Kompoundierungsfehlern bei längeren Trajektorien. Stattdessen schlägt der Artikel die direkte Modellierung ganzer Trajektorien mithilfe von Diffusionsmodellen vor. Um diese Trajektorien näher an die Zielverteilung zu bringen, wird eine Policy-Führung eingeführt. Dabei wird der Diffusionsprozess so beeinflusst, dass die generierten Aktionen eine höhere Wahrscheinlichkeit unter der Zielpolitik aufweisen.
Die theoretische Herleitung zeigt, dass dieser Ansatz eine regularisierte Form der Zielverteilung modelliert, die einen Kompromiss zwischen Verhaltens- und Zielpolitik-Wahrscheinlichkeit darstellt. Experimente belegen, dass Agenten, die auf den so generierten synthetischen Daten trainiert werden, signifikante Performanceverbesserungen gegenüber Agenten erzielen, die auf realen oder ungelenkten synthetischen Daten trainiert wurden.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Matthew Thom... في arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06356.pdfاستفسارات أعمق