이 연구는 비전-언어 모델의 교차적 사회적 편향을 탐지하고 완화하기 위한 방법을 제안한다. 기존 연구는 단일 사회적 속성에 대한 편향만을 다루었지만, 이 연구에서는 성별, 인종, 신체적 특징 등의 교차적 속성에 대한 편향을 함께 고려한다.
연구진은 텍스트-이미지 확산 모델을 활용하여 교차적 사회적 속성이 반영된 반사실적 이미지-텍스트 쌍을 대량으로 생성하였다. 이를 통해 SocialCounterfactuals라는 대규모 데이터셋을 구축하였다. 이 데이터셋을 활용하여 6개의 최신 비전-언어 모델의 교차적 편향을 측정한 결과, 모든 모델에서 상당한 수준의 편향이 발견되었다. 특히 인종-성별 교차 편향이 가장 심각한 것으로 나타났다.
또한 SocialCounterfactuals 데이터셋을 활용하여 CLIP, ALIP, FLAVA 모델을 추가 학습한 결과, 교차적 편향이 크게 감소하였다. 이는 합성 반사실적 예제가 비전-언어 모델의 편향 완화에 효과적임을 보여준다. 다만 모델 성능 저하가 일부 관찰되어, 편향 완화와 성능 유지의 균형을 위한 추가 연구가 필요할 것으로 보인다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究