統計的順次意思決定アルゴリズムの数学的分析

統計的順次意思決定の数学: 集中度、リスク認識、ストキャスティックバンディットにおけるモデリング、および外科手術への応用

本論文は、術後患者のフォローアップ管理における統計的順次意思決定アルゴリズムの数学的課題を研究することを目的としている。ストキャスティックバンディット(多腕、コンテキスト依存)は、不確実な環境下で行動を学習し、観測された報酬を最大化するエージェントのモデルである。最適な方策を学習するためには、バンディットアルゴリズムは現在の知識の活用と不確実な行動の探索のバランスを取る必要がある。このようなアルゴリズムは、オンライン広告におけるクリック率の最大化など、大規模データ、低リスクの決定、明確なモデル仮定がある産業応用では広く研究・展開されてきた。一方で、デジタルヘルスケアの推奨には、小さなサンプル、リスク回避的なエージェント、複雑な非パラメトリックモデリングなど、全く新しいパラダイムが必要とされる。