핵심 개념
複雑な連続状態空間のMDPから抽象化された離散状態空間の抽象報酬プロセス(ARP)を構築し、オフポリシーデータから一貫性のある性能評価を行う。
초록
本研究では、オフポリシー評価(OPE)のための新しい枠組みであるSTARを提案している。STARは、状態抽象化を活用して複雑な連続状態空間のMDPを簡潔な離散状態の抽象報酬プロセス(ARP)にモデル化し、オフポリシーデータから一貫性のある性能評価を行う。
具体的には以下の通り:
- ARPは、状態抽象化関数ϕによってMDPの状態を離散的な抽象状態に写像することで構築される。
- ARPは、状態遷移確率と報酬関数を表す有限のタブル型モデルで表現できるため、モデルクラスの不適合による非一貫性を回避できる。
- オフポリシーデータからARPのモデルを推定する際は、重要度サンプリングを用いて評価ポリシーの状態遷移確率を補正する。
- これにより、ARPのモデルから評価ポリシーの期待リターンを一貫性のある推定値として得ることができる。
- STARフレームワークでは、状態抽象化関数ϕと重要度切り捨て係数cを調整することで、様々な偏りー分散トレードオフを持つOPE推定量を導出できる。既存のOPE手法はこのフレームワークの特殊ケースとして表現できる。
実験では、STARのARPベースの推定量が既存手法を大幅に上回る性能を示した。特に、医療分野のシミュレータICU-Sepsisでは、STARの最良推定量が既存手法に比べ1桁低い予測誤差を達成した。このように、複雑な連続状態空間のMDPから抽象化されたコンパクトなARPモデルが、一貫性のあるオフポリシー評価に極めて有効であることが示された。
통계
状態遷移確率Pπ
ϕ(z, z')は、ポリシーπの下での抽象状態zからz'への遷移確率を表す。
報酬関数Rπ
ϕ(z)は、ポリシーπの下での抽象状態zにおける期待報酬を表す。
初期状態分布ηϕ(z)は、抽象状態zからの初期状態の確率を表す。
인용구
"ARPは、状態遷移確率と報酬関数を表す有限のタブル型モデルで表現できるため、モデルクラスの不適合による非一貫性を回避できる。"
"オフポリシーデータからARPのモデルを推定する際は、重要度サンプリングを用いて評価ポリシーの状態遷移確率を補正する。これにより、ARPのモデルから評価ポリシーの期待リターンを一貫性のある推定値として得ることができる。"
"STARフレームワークでは、状態抽象化関数ϕと重要度切り捨て係数cを調整することで、様々な偏りー分散トレードオフを持つOPE推定量を導出できる。既存のOPE手法はこのフレームワークの特殊ケースとして表現できる。"