Der Artikel befasst sich mit dem Lernen in eingeschränkten Markov-Entscheidungsprozessen (CMDPs), bei denen das Ziel darin besteht, die erwartete kumulierte Belohnung zu maximieren, während gleichzeitig mehrere Sicherheitseinschränkungen eingehalten werden müssen.
Zunächst wird eine Regularisierungsanalyse für primal-duale Algorithmen in bekannten CMDPs präsentiert. Diese zeigt, dass die regularisierten Iterationen gegen die eindeutige Lösung des regularisierten Problems konvergieren. Darauf aufbauend wird ein modellbasierter primal-dualer Algorithmus für das Lernen in unbekannten CMDPs vorgestellt.
Der Hauptbeitrag ist der Nachweis, dass dieser Algorithmus eine sublineare starke Regret-Garantie ohne Fehlerausgleich erreicht. Dies ist der erste Beweis dieser Art für primal-duale Algorithmen und beantwortet eine offene Frage von Efroni et al. (2020). Die Analyse überwindet technische Herausforderungen, die mit der Nichtkonkavität des regularisierten Problems und der Kontrolle der Verletzung mehrerer Einschränkungen verbunden sind.
Numerische Experimente zeigen, dass der regularisierte Algorithmus im Vergleich zu unregularisierten Ansätzen tatsächlich eine sublineare starke Regret-Garantie ohne Fehlerausgleiche aufweist.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies