本文は、強化学習と因果モデリングの相互補完性に焦点を当てています。オンライン学習では、エージェントが自らの経験から学ぶため、観測された行動の原因が明確であり、観測された報酬や次の状態と混同されません。これにより、条件付き確率から介入確率を推定することが可能です。また、構造的因果モデルを使用して観察的、介入的、およびカウンターファクトアル確率を計算する方法も説明されています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Oliver Schul... lúc arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04221.pdfYêu cầu sâu hơn