이 연구는 시각적으로 접지된 음성 모델이 상호 배타성 편향을 보이는지 조사했다. 상호 배타성 편향은 아동이 새로운 단어를 새로운 객체에 매핑하는 경향을 나타낸다. 연구진은 MATTNET이라는 대표적인 시각-음성 모델을 사용했으며, 다양한 초기화 전략을 통해 사전 지식의 영향을 분석했다.
실험 결과, MATTNET 모델은 일관적으로 상호 배타성 편향을 보였다. 특히 사전 시각 지식이 많을수록 편향이 더 강해졌다. 추가 분석을 통해 이 편향이 모델의 표현 공간 구조와 관련이 있음을 확인했다. 새로운 클래스는 친숙한 클래스와 구분되지만, 친숙한 클래스 간 구분보다는 새로운 클래스와 친숙한 클래스 간 구분이 더 약했다. 이로 인해 새로운 단어 쿼리가 새로운 객체에 더 유사하게 매핑되는 것으로 나타났다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы