본 연구는 데이터 가지치기 기법이 기계 학습 모델의 공정성에 미치는 영향을 체계적으로 분석하였다. 기존 가지치기 기법들은 평균 성능은 향상시키지만, 클래스 간 성능 격차를 악화시키는 문제가 있음을 확인하였다. 이는 가지치기 과정에서 클래스 간 비율을 적절히 유지하지 못하기 때문인 것으로 분석된다.
이를 해결하기 위해 본 연구에서는 클래스 별 오류율을 고려한 무작위 가지치기 기법 "MetriQ"를 제안하였다. MetriQ는 검증 데이터셋 상의 클래스 별 정확도를 기반으로 각 클래스의 가지치기 비율을 결정한다. 실험 결과, MetriQ는 기존 가지치기 기법 대비 분류 모델의 공정성을 크게 향상시키면서도 평균 성능 저하를 최소화할 수 있음을 보였다.
이론적 분석을 통해, MetriQ가 가우시안 혼합 모델에서 최적의 클래스 비율을 근사하는 것을 확인하였다. 이는 MetriQ가 단순한 무작위 가지치기에 비해 공정성 향상에 효과적인 이유를 설명한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Artem Vysogo... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05579.pdfDybere Forespørgsler