Core Concepts
시각적으로 접지된 언어 학습을 통해 논리적, 공간적, 수치적 추론이 필요한 기능어의 의미를 학습할 수 있다.
Abstract
이 연구는 시각적 질문 답변 모델이 기능어의 의미를 어떻게 학습하는지 탐구한다. 구체적으로 논리 연산자 and/or, 공간 전치사 behind/in front of, 양화사 more/fewer의 의미 학습을 분석했다.
연구 결과:
시각적으로 접지된 언어 학습을 통해 모델은 기능어의 의미를 점진적으로 학습할 수 있다. 단, 일부 기능어에서는 모호성이 발생하여 모델의 성능이 저하된다.
대안 표현에 대한 고려는 기능어 의미 학습에 영향을 미치며, 모델은 점차 배타적 해석을 선호하게 된다.
기능어 학습 순서는 주로 입력 데이터의 빈도에 따라 결정되지만, 개념적 요인도 일부 역할을 한다.
이 연구는 기능어 의미 학습이 비상징적 일반 학습 메커니즘을 통해 가능함을 보여주는 개념 증명 사례를 제공한다.
Stats
전체 CLEVR 데이터셋에서 and는 56.32%, or는 43.68%의 비율로 나타난다.
and 질문 중 52%가 yes/no 답변을 요구하며, 나머지는 다른 단어 답변을 요구한다.
or 질문은 모두 숫자 답변을 요구한다.
behind와 in front of는 유사한 빈도와 yes/no 답변 비율을 보인다.
more와 fewer는 yes/no 답변만을 요구한다.