이 논문은 시각적 정보를 활용한 언어 모델 학습 알고리즘인 LexiContrastive Grounding을 제안한다. LexiContrastive Grounding은 다음 토큰 예측 목적 함수와 단어 수준의 시각적 정보 대조 학습 목적 함수를 결합한다. 특히 초기 층의 표현에 시각적 정보 대조 학습을 적용하여 단어 의미 학습 효율성을 높인다.
실험 결과, LexiContrastive Grounding은 단어 관련성, 의미 특징 예측, 어휘 관계 예측, 문맥 이해 등의 벤치마크에서 기존 언어 모델 및 다른 시각-언어 학습 알고리즘보다 우수한 성능을 보였다. 또한 언어 모델링 측면에서도 약 5%의 퍼플렉시티 향상을 달성했다. 이는 시각적 정보 활용이 언어 모델 학습에 도움이 될 수 있음을 보여준다.
추가 분석에 따르면, LexiContrastive Grounding 모델은 구체적인 단어의 의미를 더 인간적으로 학습하는 것으로 나타났다. 이는 시각적 정보가 구체적 단어 학습에 도움이 되지만, 추상적 단어 학습에는 한계가 있음을 시사한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문