Core Concepts
유한 데이터셋을 사용할 때 공정성 제약이 분류 정확도에 미치는 추가적인 비용을 연구하고, 이를 고려한 최소-최대 최적 공정 분류기를 제안한다.
Abstract
이 논문은 인구통계학적 격차(demographic disparity)를 제한하는 공정 이진 분류 문제를 연구한다. 저자들은 공정성 제약으로 인한 추가적인 비용을 정량화하기 위해 공정성 인지 초과 위험(fairness-aware excess risk)이라는 새로운 성능 지표를 도입한다.
데이터 분포의 특성(홀더 연속성, 마진 조건, 강한 밀도 조건)에 따른 최소-최대 하한을 도출한다. 이때 공정성 제약으로 인해 그룹별 임계값 추정에 추가적인 오차가 발생하는 경우를 고려한다.
이를 바탕으로 FairBayes-DDP+라는 그룹별 임계값 기반 분류기를 제안하고, 이것이 최소-최대 최적임을 보인다. 실험 결과, FairBayes-DDP+는 공정성과 정확도의 균형을 잘 달성한다.
Stats
공정성 제약이 없는 베이즈 최적 분류기의 오류율과 공정 베이즈 최적 분류기의 오류율 차이는 t⋆
δ |D−(t⋆
δ) = D+(t⋆
δ) = δ| 에 의해 결정된다.
공정성 제약이 없는 베이즈 최적 분류기의 오류율과 공정 베이즈 최적 분류기의 오류율 차이는 n−(γ′+1)β/(2β+d)의 속도로 수렴한다.
Quotes
"유한 데이터셋을 사용할 때 공정성 제약이 정확도에 미치는 추가적인 비용은 명확하지 않다."
"공정성 제약으로 인해 그룹별 임계값 추정에 추가적인 오차가 발생할 수 있다."