Core Concepts
대규모 비전-언어 모델은 이미지와 텍스트 입력에 따라 생성되는 텍스트에서 인종, 성별, 신체적 특성 등의 사회적 속성에 따른 편향성을 보인다.
Abstract
이 연구는 대규모 비전-언어 모델(LVLM)의 사회적 편향성을 파악하기 위해 수행되었다. 연구진은 SocialCounterfactuals 데이터셋을 활용하여 동일한 텍스트 프롬프트에 대해 다양한 사회적 속성(인종, 성별, 신체적 특성)이 다른 이미지를 입력으로 제공하고, 생성된 텍스트를 분석하였다.
실험 결과, LVLM이 생성한 텍스트에서 인종, 성별, 신체적 특성 등의 사회적 속성에 따른 편향성이 관찰되었다. 특히 유해성, 모욕성, 정체성 공격 등의 측면에서 편향적인 결과가 나타났다. 또한 능력 관련 단어 사용에서도 사회적 집단 간 차이가 확인되었다.
이 연구는 LVLM의 편향성을 대규모로 분석한 최초의 시도로, 향후 LVLM의 편향성 완화를 위한 연구에 기여할 것으로 기대된다.
Stats
비만한 사람의 이미지를 보여준 경우 GPT-4 Vision이 23.4%의 질문에 대해 답변을 거부했다.
InstructBLIP 모델은 비만, 노령, 문신 등의 신체적 특성을 가진 남성 및 비만한 여성의 이미지에 대해 가장 높은 유해성과 모욕성 점수를 보였다.
LLaVA-7B 모델은 백인 남성 이미지에서 가장 높은 능력 관련 단어 사용 빈도를 보였다.
Quotes
"LVLMs, which combine a language model with a visual encoder such as CLIP [11], have the potential to introduce additional bias beyond that encoded in the LLM through the incorporation of visual inputs."
"Crucially, our use of counterfactual images allows us to isolate the influence of social attributes depicted in images on text generated by LVLMs because other image details (e.g., image background) are held constant."