核心概念
本稿では、リスク中立的な目的関数をリスク考慮型に拡張することで、従来のレストレス多腕バンディット問題の一般化を行い、リスクを考慮した意思決定のための堅牢なフレームワークを提案しています。
要約
リスクを考慮したレストレス多腕バンディット問題における計画と学習
Akbarzadeh, N., Delage, E., & Adulyasak, Y. (2024). Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem. arXiv preprint arXiv:2410.23029v1.
本研究は、従来のリスク中立的なレストレス多腕バンディット(RMAB)問題を、リスクを考慮した目的関数を組み込むことで拡張し、不確実性下におけるより現実的な意思決定モデルを提案することを目的とする。