이 연구는 비전-언어 모델의 교차적 사회적 편향을 탐지하고 완화하기 위한 방법을 제안한다. 기존 연구는 단일 사회적 속성에 대한 편향만을 다루었지만, 이 연구에서는 성별, 인종, 신체적 특징 등의 교차적 속성에 대한 편향을 함께 고려한다.
연구진은 텍스트-이미지 확산 모델을 활용하여 교차적 사회적 속성이 반영된 반사실적 이미지-텍스트 쌍을 대량으로 생성하였다. 이를 통해 SocialCounterfactuals라는 대규모 데이터셋을 구축하였다. 이 데이터셋을 활용하여 6개의 최신 비전-언어 모델의 교차적 편향을 측정한 결과, 모든 모델에서 상당한 수준의 편향이 발견되었다. 특히 인종-성별 교차 편향이 가장 심각한 것으로 나타났다.
또한 SocialCounterfactuals 데이터셋을 활용하여 CLIP, ALIP, FLAVA 모델을 추가 학습한 결과, 교차적 편향이 크게 감소하였다. 이는 합성 반사실적 예제가 비전-언어 모델의 편향 완화에 효과적임을 보여준다. 다만 모델 성능 저하가 일부 관찰되어, 편향 완화와 성능 유지의 균형을 위한 추가 연구가 필요할 것으로 보인다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы