본 연구는 데이터 가지치기 기법이 기계 학습 모델의 공정성에 미치는 영향을 체계적으로 분석하였다. 기존 가지치기 기법들은 평균 성능은 향상시키지만, 클래스 간 성능 격차를 악화시키는 문제가 있음을 확인하였다. 이는 가지치기 과정에서 클래스 간 비율을 적절히 유지하지 못하기 때문인 것으로 분석된다.
이를 해결하기 위해 본 연구에서는 클래스 별 오류율을 고려한 무작위 가지치기 기법 "MetriQ"를 제안하였다. MetriQ는 검증 데이터셋 상의 클래스 별 정확도를 기반으로 각 클래스의 가지치기 비율을 결정한다. 실험 결과, MetriQ는 기존 가지치기 기법 대비 분류 모델의 공정성을 크게 향상시키면서도 평균 성능 저하를 최소화할 수 있음을 보였다.
이론적 분석을 통해, MetriQ가 가우시안 혼합 모델에서 최적의 클래스 비율을 근사하는 것을 확인하였다. 이는 MetriQ가 단순한 무작위 가지치기에 비해 공정성 향상에 효과적인 이유를 설명한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询