이 논문은 강화 학습 문제에서 불공정성의 근원을 인과 관계 분석을 통해 체계적으로 탐구한다. 먼저 강화 학습 문제를 구조적 인과 모델로 표현하고, 장기적 복지 격차를 자연 직접 효과와 자연 간접 효과로 분해하여 불공정성의 원인을 정량적으로 설명한다. 이를 바탕으로 동적 공정성이라는 새로운 인과적 공정성 개념을 제안한다. 동적 공정성은 환경 역학의 공정성을 포착하여 불공정성의 책임 소재를 구분한다. 이를 위해 동적 공정성을 정량적으로 평가할 수 있는 식별 공식을 도출한다. 실험을 통해 제안된 방법론의 유효성을 검증하고, 동적 공정성을 반영한 강화 학습 알고리즘을 제시한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhihong Deng... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.10942.pdfDeeper Inquiries