Die Studie untersucht, ob "Träume" ähnlich wie beim Menschen auch Reinforcement Learning-Agenten dabei helfen können, besser zu generalisieren. Dafür wird ein Imagination-basierter Reinforcement Learning-Ansatz vorgestellt, bei dem nicht nur reale, sondern auch generierte "traumähnliche" Episoden verwendet werden.
Zunächst wird ein Weltmodell gelernt, das in der Lage ist, kompakte Zustandsrepräsentationen und Übergänge vorherzusagen. Ausgehend von zufällig generierten Anfangszuständen werden dann imaginierte Trajektorien erzeugt, die anschließend durch drei verschiedene Transformationen (zufälliges Schwingen, DeepDream, Wertmaximierung) in Richtung "traumähnlicher" Erfahrungen verzerrt werden.
Diese so erzeugten Episoden werden dann genutzt, um den Reinforcement Learning-Agenten zusätzlich zu den realen Erfahrungen zu trainieren. Die Experimente auf vier ProcGen-Umgebungen zeigen, dass dieser Ansatz in spärlich belohnten Umgebungen zu einer höheren Generalisierungsleistung führen kann als klassisches Imagination-basiertes Training oder reines Offline-Training auf gesammelten Erfahrungen.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Giorgio Fran... om arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.07979.pdfDiepere vragen