Der Artikel befasst sich mit dem Problem des Verstärkungslernens in Umgebungen mit Beobachtungsverzögerungen. In solchen Fällen können Agenten die Auswirkungen ihrer Handlungen nicht sofort wahrnehmen, was die Leistung von Verstärkungslernalgorithmen beeinträchtigen kann.
Der Artikel schlägt vor, Weltmodelle zu verwenden, um mit Beobachtungsverzögerungen umzugehen. Weltmodelle haben sich als erfolgreich erwiesen, um vergangene Beobachtungen zu integrieren und die Dynamik der Umgebung zu lernen. Durch die Reduzierung verzögerter POMDPs auf verzögerte MDPs mit Weltmodellen können die vorgestellten Methoden effektiv mit Teilbeobachtbarkeit umgehen, in der bestehende Ansätze eine suboptimale Leistung aufweisen oder schnell an Leistung verlieren, wenn die Beobachtbarkeit abnimmt.
Die Experimente zeigen, dass eine der Methoden einen naiven modellbasierten Ansatz um bis zu 30% übertreffen kann. Darüber hinaus werden die Methoden erstmals auf visuelle Eingaben in verzögerten Umgebungen evaluiert.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Armin Karamz... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12309.pdfConsultas más profundas