이 연구는 시각적으로 접지된 음성 모델이 상호 배타성 편향을 보이는지 조사했다. 상호 배타성 편향은 아동이 새로운 단어를 익숙한 객체가 아닌 새로운 객체에 매핑하는 경향을 말한다.
연구진은 최근 시각-언어 모델인 MATTNET을 사용하여 실험을 진행했다. MATTNET은 음성과 이미지를 입력받아 두 입력 간의 유사도를 출력한다. 연구진은 MATTNET을 익숙한 단어와 객체로 학습시킨 후, 새로운 단어와 익숙한/새로운 객체를 제시하여 모델이 새로운 단어를 어떤 객체에 매핑하는지 관찰했다.
실험 결과, MATTNET은 일관되게 상호 배타성 편향을 보였다. 특히 사전 학습된 비전 인코더를 사용한 모델에서 편향이 더 강하게 나타났다. 추가 분석을 통해 이러한 편향이 모델의 표현 공간 구조에 기인함을 확인했다. 즉, 모델은 익숙한 클래스와 새로운 클래스를 명확히 구분하며, 새로운 단어는 새로운 객체에 더 가깝게 표현된다.
이 연구는 시각적으로 접지된 음성 모델에서도 상호 배타성 편향이 관찰됨을 보였다. 이는 아동의 단어 학습 과정을 모방하는 이러한 모델의 특성을 잘 반영한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询