教師あり学習のためのMRP定式化: 一般化時間差分学習モデル
従来の統計的教師あり学習では、データポイントが独立同一分布に従うと仮定されるが、本論文ではデータポイントが相互に関連していると捉え、マルコフ報酬過程(MRP)を用いてデータをモデル化する。この新しい視点に基づき、一般化時間差分(TD)学習アルゴリズムを提案し、線形TD学習とOLS(最小二乗法)の解の関係を明らかにする。さらに、特定の条件下では、TD学習の解がOLSよりも効率的な推定量であることを示す。また、線形関数近似の下でのTD学習アルゴリズムの収束性も証明する。