Core Concepts
시각적으로 접지된 음성 모델은 새로운 단어를 새로운 객체에 매핑하는 상호 배타성 편향을 보인다.
Abstract
이 연구는 시각적으로 접지된 음성 모델이 상호 배타성 편향을 보이는지 조사했다. 모델은 익숙한 단어와 객체를 학습한 후, 새로운 단어와 익숙한 객체 또는 새로운 객체 중 어느 것을 선택할지 테스트했다. 다양한 초기화 전략을 사용하여 사전 음성 및 시각 지식을 시뮬레이션했다. 결과적으로 모든 모델 변형에서 상호 배타성 편향이 관찰되었으며, 특히 시각 지식이 더 많은 모델에서 편향이 더 강했다. 추가 테스트를 통해 이 결과의 강건성을 확인했으며, 모델의 표현 공간 분석을 통해 상호 배타성 편향이 어떻게 발생하는지 설명했다.
Stats
익숙한 단어와 객체로 구성된 데이터셋으로 학습한 모델의 익숙한 클래스 구분 정확도는 72.86%에서 93.16%였다.
새로운 단어와 익숙한 객체 또는 새로운 객체 중 선택하는 상호 배타성 테스트에서 모델의 정확도는 55.92%에서 63.91%였다.
Quotes
"시각적으로 접지된 음성 모델은 새로운 단어를 새로운 객체에 매핑하는 상호 배타성 편향을 보인다."
"상호 배타성 편향은 사전 시각 지식이 더 많은 모델에서 더 강하게 나타났다."