本論文は、強化学習における公平性の問題を因果関係の観点から分析している。まず、強化学習問題をマルコフ決定過程(MDP)のフレームワークでモデル化し、因果モデルを構築する。次に、長期的な厚生格差を定量的に分解し、その源泉を明らかにする。具体的には、敏感属性が長期的な報酬に与える影響を自然直接効果と自然間接効果に分解する。
この分解により、環境の動的特性に起因する不平等を捉える新しい公平性概念「動的公平性」を提案する。動的公平性は、敏感属性から報酬や次状態への直接パスが存在しないことを意味する。この条件を満たさない場合、環境の動的特性自体が不平等の源泉となる。
さらに、動的公平性の定量的な評価方法を導出し、実験的に検証する。結果、提案手法は環境の公平性違反を正確に検出できることを示している。最後に、動的公平性を組み込んだ強化学習アルゴリズムを提案し、その有効性を確認している。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Zhihong Deng... às arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.10942.pdfPerguntas Mais Profundas