本文は、強化学習と因果モデリングの相互補完性に焦点を当てています。オンライン学習では、エージェントが自らの経験から学ぶため、観測された行動の原因が明確であり、観測された報酬や次の状態と混同されません。これにより、条件付き確率から介入確率を推定することが可能です。また、構造的因果モデルを使用して観察的、介入的、およびカウンターファクトアル確率を計算する方法も説明されています。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы