แนวคิดหลัก
本稿では、オフライン強化学習における因果推論の進展に基づき、Q関数の差分、すなわち因果コントラストの推定に焦点を当て、従来手法よりも収束率が向上し、構造に適応しやすい手法を提案する。
บทคัดย่อ
オフライン強化学習におけるQ関数の差分の直交化推定
本稿は、オフライン強化学習における新しい手法である「Q関数の差分の直交化推定」を提案する研究論文である。
本研究は、オフライン強化学習において、従来のQ関数推定手法の代わりに、Q関数の差分(因果コントラスト)を直接推定することで、より効率的で構造に適応しやすい手法を開発することを目的とする。
本稿では、R-learnerの動的汎化に基づく新しい推定手法を提案する。この手法は、直交推定を活用することで、Q関数や行動ポリシー(いわゆるnuisance関数)の収束率が遅い場合でも、収束率を向上させることができる。具体的には、以下の手順で推定を行う。
データセットをK個のフォールドに分割し、クロスバリデーションを行う。
各フォールドにおいて、残りのデータを用いてQ関数と行動ポリシーを推定する。
推定したQ関数と行動ポリシーを用いて、Q関数の差分を推定する損失関数を定義する。
損失関数を最小化するように、Q関数の差分を推定する。