Concepts de base
Stable Diffusion과 같은 텍스트-이미지 생성 AI 모델은 인종 및 성별에 대한 편향을 담고 있어 사회적 고정관념을 강화하고 동질화를 심화시킬 수 있으며, 이를 해결하기 위해 포괄적이고 다양성을 갖춘 AI 모델 개발이 시급하다.
Résumé
AI 생성 얼굴의 편향성 연구 논문 요약
참고문헌: AlDahoul, N., Rahwan, T., & Zaki, Y. (2024). AI-generated faces influence gender stereotypes and racial homogenization. arXiv preprint arXiv:2402.01002v3.
연구 목적: 본 연구는 Stable Diffusion XL (SDXL)과 같은 텍스트-이미지 생성 AI 모델이 생성하는 얼굴 이미지에서 나타나는 인종 및 성별 편향을 분석하고, 이러한 편향이 사회적 고정관념과 동질화에 미치는 영향을 조사하는 것을 목표로 한다.
연구 방법:
- 분류기 개발: 연구팀은 얼굴 이미지의 인종과 성별을 예측하는 분류기를 개발하고, FairFace 데이터셋을 사용하여 분류기의 성능을 검증했다.
- Stable Diffusion 분석: SDXL을 사용하여 생성된 이미지들을 분석하여 인종 및 성별 분포, 직업 및 특성과 관련된 고정관념, 인종 동질화 현상 등을 정량화했다.
- 편향 완화 모델 개발: SDXL-Inc (포괄성) 및 SDXL-Div (다양성)와 같은 편향 완화 모델을 개발하고, 이들이 생성하는 이미지의 인종 및 성별 분포, 얼굴 특징의 다양성을 평가했다.
- 설문 조사: 네 가지 설문 조사를 통해 SDXL 및 SDXL-Inc, SDXL-Div 모델이 생성한 이미지에 노출되었을 때 사람들의 인종 및 성별에 대한 인식 변화를 측정했다.
주요 연구 결과:
- Stable Diffusion의 편향성: SDXL은 백인 남성을 과대표하고 특정 인종 (예: 아시아인, 인디언)을 과소 표현하는 경향을 보였다. 또한, 특정 직업 및 특성을 특정 인종 및 성별과 연관 짓는 고정관념을 드러냈다. 예를 들어, 고소득 직업은 백인, 범죄는 흑인, 테러리즘은 중동 남성과 연관되는 경향을 보였다.
- 인종 동질화: SDXL은 특정 인종, 특히 중동 사람들의 얼굴 특징을 매우 유사하게 생성하는 경향을 보였으며, 이는 서구 중심적인 시각으로 동양 문화를 단순화하는 오리엔탈리즘과 연결될 수 있다.
- 편향 완화 모델의 효과: SDXL-Inc는 인종 및 성별 분포를 균등하게 조정하여 고정관념을 완화하는 효과를 보였다. SDXL-Div는 특정 인종 내 얼굴 특징의 다양성을 증가시켜 인종 동질화 문제를 해결하는 데 기여했다.
- AI 생성 이미지 노출의 영향: 설문 조사 결과, SDXL-Inc 모델이 생성한 이미지에 노출된 참가자들은 인종 및 성별에 대한 편견이 감소한 반면, SDXL 모델이 생성한 이미지에 노출된 참가자들은 편견이 증가되는 경향을 보였다.
연구의 중요성: 본 연구는 텍스트-이미지 생성 AI 모델이 내포한 편향과 그 영향을 정량적으로 분석하고, 이러한 문제를 해결하기 위한 구체적인 해결 방안을 제시했다는 점에서 의의를 갖는다. 특히, 인종 동질화 문제를 다루고 AI 생성 이미지 노출이 인간의 인식에 미치는 영향을 실험적으로 검증했다는 점에서 기존 연구와 차별화된다.
연구의 한계점 및 향후 연구 방향:
- 본 연구에서 사용된 인종 및 성별 분류는 FairFace 데이터셋에 기반하여 제한적일 수 있으며, 실제 사회의 다양성을 완벽하게 반영하지 못할 수 있다.
- 편향 완화 모델은 여전히 개선의 여지가 있으며, 더욱 다양한 데이터셋과 학습 방법을 통해 성능을 향상시킬 필요가 있다.
- AI 생성 이미지가 사회적 고정관념과 동질화에 미치는 장기적인 영향을 파악하기 위해서는 추가적인 연구가 필요하다.
Stats
SDXL이 생성한 이미지 중 백인은 47%, 흑인은 33%를 차지했다.
SDXL이 생성한 이미지 중 아시아인은 3%, 인디언은 5%에 불과했다.
SDXL이 생성한 이미지 중 남성은 65%로 여성보다 높은 비율을 보였다.
SDXL이 생성한 이미지 중 '청소부'와 '경비원'은 대부분 흑인으로 표현되었다.
SDXL이 생성한 이미지 중 '의사'와 '교수'는 90% 이상 남성으로 표현되었다.
SDXL이 생성한 이미지 중 '아름다움', '지능', '승자'는 주로 백인으로 표현되었다.
SDXL이 생성한 이미지 중 '테러리스트'는 중동인으로, '범죄자'와 '가난'은 흑인으로 표현되는 경향이 높았다.
SDXL이 생성한 중동 남성 이미지의 평균 코사인 유사도는 0.61로 다른 인종에 비해 높았다.
SDXL-Div 모델을 사용하여 생성된 중동 남성 이미지의 평균 코사인 유사도는 0.41로 감소했다.
Citations
"Stable Diffusion exhibits biases that cannot be fully explained by the data on which it was trained."
"Stereotypical portrayals have been shown to reinforce biases and limit ambitions."
"Stable Diffusion’s portrayal of people from any given race as resembling one another may reinforce existing racial stereotypes."