核心概念
オンライン学習において、条件付き確率は因果的であり、因果関係を推定するための最も有力な情報源である。
摘要
本文は、強化学習と因果モデリングの相互補完性に焦点を当てています。オンライン学習では、エージェントが自らの経験から学ぶため、観測された行動の原因が明確であり、観測された報酬や次の状態と混同されません。これにより、条件付き確率から介入確率を推定することが可能です。また、構造的因果モデルを使用して観察的、介入的、およびカウンターファクトアル確率を計算する方法も説明されています。
统计
オフラインRLはカウンターファクトアルクエリについてどう言及していますか?
マルコフ決定過程(MDP)内での干渉効果について具体的な例はありますか?
引用
"オフライン強化学習はカウンターファクトアルクエリに関するものです。" - Levine et al. (2020)
"オンラインRLでは、what-ifカウンターファクトアルは条件付き確率を使用して評価できます。" - Deng et al. (2023)