Der Artikel befasst sich mit dem Problem der Robustheit in Verstärkungslernung (RL), insbesondere in Bezug auf niedrigrangige Markov-Entscheidungsprozesse (MDPs). Die Autoren stellen eine neue Robustheitskonzeption vor, die sowohl Unsicherheiten in den Merkmalen (features) als auch in den Faktoren (factors) berücksichtigt.
Bisherige Ansätze zur robusten Optimierung in MDPs leiden unter Effizienzproblemen, die ihre Anwendung in der Praxis erschweren. Die vorgeschlagene (ξ, η)-Rechteckigkeit ermöglicht eine effiziente Behandlung der dualen Störung in niedrigrangigen MDPs.
Der Kern der Methode ist eine neue robuste Bellman-Aktualisierung, die eine implizite stufenweise unabhängige Pseudo-MDP-Störung um das nominale MDP ermöglicht. Darauf aufbauend wird der R2PG-Algorithmus entwickelt, der eine theoretisch fundierte Konvergenzgarantie zum optimal robusten Policy liefert.
Numerische Simulationen zeigen, dass die Methode in der Lage ist, robuste Policies zu finden, die im Vergleich zur nominalen optimalen Policy bei Störungen deutlich bessere Leistung zeigen.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania