Der Artikel befasst sich mit dem Problem des Verstärkungslernens in Umgebungen mit Beobachtungsverzögerungen. In solchen Fällen können Agenten die Auswirkungen ihrer Handlungen nicht sofort wahrnehmen, was die Leistung von Verstärkungslernalgorithmen beeinträchtigen kann.
Der Artikel schlägt vor, Weltmodelle zu verwenden, um mit Beobachtungsverzögerungen umzugehen. Weltmodelle haben sich als erfolgreich erwiesen, um vergangene Beobachtungen zu integrieren und die Dynamik der Umgebung zu lernen. Durch die Reduzierung verzögerter POMDPs auf verzögerte MDPs mit Weltmodellen können die vorgestellten Methoden effektiv mit Teilbeobachtbarkeit umgehen, in der bestehende Ansätze eine suboptimale Leistung aufweisen oder schnell an Leistung verlieren, wenn die Beobachtbarkeit abnimmt.
Die Experimente zeigen, dass eine der Methoden einen naiven modellbasierten Ansatz um bis zu 30% übertreffen kann. Darüber hinaus werden die Methoden erstmals auf visuelle Eingaben in verzögerten Umgebungen evaluiert.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Armin Karamz... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12309.pdfYêu cầu sâu hơn