Core Concepts
모델이 유발하는 데이터 분포 변화는 모델의 실수, 편향, 불공정성을 데이터 생태계에 고착시킬 수 있다. 이러한 부작용을 완화하기 위해 알고리즘 보상이라는 개념을 제안하며, 이를 통해 역사적 차별에 대한 보상을 제공할 수 있다.
Abstract
이 논문은 모델이 유발하는 데이터 분포 변화(MIDS)에 대해 소개한다. MIDS는 모델의 이전 출력이 새로운 모델 학습 데이터를 오염시키는 현상으로, 생성 모델의 모델 붕괴, 감독 학습 모델의 수행 예측 또는 불공정성 피드백 루프 등의 문제를 야기한다.
MIDS는 모델 성능, 공정성, 소수 그룹 대표성 저하를 초래할 수 있다. 이러한 부작용에도 불구하고, 모델을 사용하여 데이터 생태계에 긍정적이고 의도적인 개입을 할 수 있는 방법인 알고리즘 보상(AR)을 제안한다. AR은 역사적 차별에 대한 보상을 제공하는 것을 목표로 한다.
실험에서는 MIDS의 영향을 평가하기 위해 분류기와 생성기 모델의 연속적인 학습 설정을 사용했다. 결과적으로 MIDS로 인해 성능, 공정성, 소수 그룹 대표성이 저하되는 것을 확인했다. 또한 AR 개입을 통해 이러한 부작용을 완화할 수 있음을 보였다.
Stats
모델 붕괴로 인해 CelebA 데이터셋에서 소수 그룹 대표성이 완전히 사라짐
ColoredSVHN 데이터셋에서 40세대 후 정확도가 10-15% 하락하고 불공정성이 0.2 증가함
Quotes
"모델이 유발하는 데이터 분포 변화는 모델의 실수, 편향, 불공정성을 데이터 생태계에 고착시킬 수 있다."
"알고리즘 보상은 역사적 차별에 대한 보상을 제공하는 것을 목표로 한다."