本研究は、従来の強化学習の枠組みであるマルコフ決定過程(MDP)に不確実性を導入したロバストMDP(RMDP)の中で、リスク感応型強化学習の一手法であるCVaRの堅牢性を分析している。
まず、不確実性集合が固定された場合について、CVaRの双対表現を利用することで、リスク感応型強化学習の問題に帰着できることを示した。
さらに、実世界の問題では不確実性集合が決定に依存して変化する場合が多いことに着目し、新しいリスク尺度NCVaRを提案した。NCVaRは決定依存型不確実性下でのCVaRの堅牢性を高めるものである。NCVaRの分解定理を示し、それに基づいた値反復アルゴリズムを提案した。
シミュレーション実験の結果から、提案手法が決定依存型不確実性下でも堅牢なリスク感応型強化学習を実現できることが確認された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xinyi Ni,Lif... kl. arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01718.pdfDybere Forespørgsler