Core Concepts
容量制約下の治療割当において、戦略的に行動する代理人の存在は、最適な政策の推定を複雑化させる。本研究では、このような状況下で、均衡政策価値を最大化する選択基準を学習する方法を提案する。
Abstract
本研究は、容量制約下の治療割当問題を動的モデルで扱う。代理人は自身の観測可能な特徴に基づいて戦略的に行動し、治療割当政策に応答する。政策決定者は、代理人の戦略的行動を考慮しつつ、均衡政策価値を最大化する選択基準を学習することを目的とする。
具体的には以下の通り:
代理人は自身の観測可能な特徴を戦略的に変化させ、前期の政策に応答する。代理人の行動は、自身の原特徴と変化コストに依存する。
政策決定者は、容量制約の下で、代理人の得点に基づいて治療を割り当てる。得点の閾値は、前期の代理人の戦略的行動に応じて決まる。
均衡状態では、得点の閾値が一定となる。政策決定者の目的は、この均衡状態における政策価値を最大化することである。
本研究では、均衡状態の存在と一意性、および大標本下での収束性を示す。さらに、均衡政策価値の勾配推定量を提案し、これを用いた政策学習手法を示す。
教育データを用いた半合成実験により、提案手法の有効性を実証する。
Stats
代理人の原特徴Ziは有限個のタイプに従う。
代理人の変化コストciは2回微分可能で強凸であり、原点で最小化される。
代理人の報告特徴Xiは、原特徴Ziと変化コストciに依存し、ノイズϵiを含む。
Quotes
"代理人が戦略的に行動する場合、競争が生じ、最適な政策の推定が複雑化する。"
"均衡状態における政策価値を最大化することが、政策決定者の目的である。"