이 연구는 시각적으로 접지된 음성 모델이 상호 배타성 편향을 보이는지 조사했다. 모델은 익숙한 단어와 객체를 학습한 후, 새로운 단어와 익숙한 객체 또는 새로운 객체 중 어느 것을 선택할지 테스트했다. 다양한 초기화 전략을 사용하여 사전 음성 및 시각 지식을 시뮬레이션했다. 결과적으로 모든 모델 변형에서 상호 배타성 편향이 관찰되었으며, 특히 시각 지식이 더 많은 모델에서 편향이 더 강했다. 추가 테스트를 통해 이 결과의 강건성을 확인했으며, 모델의 표현 공간 분석을 통해 상호 배타성 편향이 어떻게 발생하는지 설명했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문