本研究は、従来の強化学習の枠組みであるマルコフ決定過程(MDP)に不確実性を導入したロバストMDP(RMDP)の中で、リスク感応型強化学習の一手法であるCVaRの堅牢性を分析している。
まず、不確実性集合が固定された場合について、CVaRの双対表現を利用することで、リスク感応型強化学習の問題に帰着できることを示した。
さらに、実世界の問題では不確実性集合が決定に依存して変化する場合が多いことに着目し、新しいリスク尺度NCVaRを提案した。NCVaRは決定依存型不確実性下でのCVaRの堅牢性を高めるものである。NCVaRの分解定理を示し、それに基づいた値反復アルゴリズムを提案した。
シミュレーション実験の結果から、提案手法が決定依存型不確実性下でも堅牢なリスク感応型強化学習を実現できることが確認された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問