リスク考慮型強化学習において、指数基準を用いた新しいアルゴリズムを提案し、そのロバスト性とサンプル効率の向上について論じています。
本稿では、従来の平均-分散強化学習における計算コストの問題を、期待二次効用最大化を用いることで解決する新たな手法を提案する。
本稿では、リスクを考慮した選好ベース強化学習(PbRL)アルゴリズムであるRA-PbRLを提案し、その理論的性能保証と実証実験による有効性検証を行っています。
本稿では、リスク中立的な目的関数をリスク考慮型に拡張することで、従来のレストレス多腕バンディット問題の一般化を行い、リスクを考慮した意思決定のための堅牢なフレームワークを提案しています。