核心概念
데이터 편향성에 기인한 알고리즘 차별의 근본적 한계를 분석하고, 이를 바탕으로 공정성 개선 방안을 제시한다.
摘要
이 논문은 기계학습 모델의 성능 격차가 발생하는 두 가지 주요 원인을 구분한다: 알레아토릭 차별(aleatoric discrimination)과 에피스테믹 차별(epistemic discrimination).
알레아토릭 차별은 데이터 분포에 내재된 편향성으로 인해 발생하는 것으로, 모델 개발 과정과는 무관하다. 에피스테믹 차별은 모델 개발 과정에서 내린 결정으로 인해 발생하는 것이다.
논문에서는 공정성 파레토 프론티어(fairness Pareto frontier)라는 개념을 도입하여, 데이터 분포와 공정성 제약 조건 하에서 달성 가능한 최대 정확도를 나타낸다. 이를 통해 알레아토릭 차별을 정량화하고, 기존 공정성 개선 기법들의 효과성을 평가할 수 있다.
실험 결과, 기존의 공정성 개선 기법들은 에피스테믹 차별을 효과적으로 줄이지만, 데이터의 편향성(예: 결측값 패턴의 차이)으로 인한 알레아토릭 차별을 해결하는 데는 한계가 있음을 보여준다. 이는 향후 공정성 개선 연구의 방향성을 제시한다.
統計資料
데이터 결측 비율이 높은 집단의 경우, 공정성 파레토 프론티어가 크게 저하된다.
집단 간 결측 패턴의 차이가 클수록 기존 공정성 개선 기법의 효과가 감소한다.
引述
"알레아토릭 차별은 데이터 분포에 내재된 편향성으로 인해 발생하는 것으로, 모델 개발 과정과는 무관하다."
"에피스테믹 차별은 모델 개발 과정에서 내린 결정으로 인해 발생하는 것이다."
"공정성 파레토 프론티어는 데이터 분포와 공정성 제약 조건 하에서 달성 가능한 최대 정확도를 나타낸다."