Der Artikel befasst sich mit dem Problem des Verstärkungslernens in Umgebungen mit Beobachtungsverzögerungen. In solchen Fällen können Agenten die Auswirkungen ihrer Handlungen nicht sofort wahrnehmen, was die Leistung von Verstärkungslernalgorithmen beeinträchtigen kann.
Der Artikel schlägt vor, Weltmodelle zu verwenden, um mit Beobachtungsverzögerungen umzugehen. Weltmodelle haben sich als erfolgreich erwiesen, um vergangene Beobachtungen zu integrieren und die Dynamik der Umgebung zu lernen. Durch die Reduzierung verzögerter POMDPs auf verzögerte MDPs mit Weltmodellen können die vorgestellten Methoden effektiv mit Teilbeobachtbarkeit umgehen, in der bestehende Ansätze eine suboptimale Leistung aufweisen oder schnell an Leistung verlieren, wenn die Beobachtbarkeit abnimmt.
Die Experimente zeigen, dass eine der Methoden einen naiven modellbasierten Ansatz um bis zu 30% übertreffen kann. Darüber hinaus werden die Methoden erstmals auf visuelle Eingaben in verzögerten Umgebungen evaluiert.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Armin Karamz... في arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12309.pdfاستفسارات أعمق