Core Concepts
화합 명사를 이해하는 비전-언어 모델의 능력을 평가하고, 이를 개선하기 위한 새로운 접근법을 제안한다.
Abstract
이 연구는 화합 명사를 이해하는 비전-언어 모델의 능력을 평가하기 위해 Compun이라는 새로운 벤치마크를 제안한다. Compun은 400개의 고유하고 일반적으로 사용되는 화합 명사로 구성되어 있으며, 각 화합 명사에 대해 화합 명사를 나타내는 이미지와 구성 명사를 나타내는 두 개의 방해 이미지가 포함되어 있다.
연구 결과, CLIP과 같은 최신 비전-언어 모델은 화합 명사 중 하나의 구성 명사가 다른 명사를 수식하는 유형의 화합 명사를 이해하는 데 어려움을 겪는 것으로 나타났다. 이를 개선하기 위해 연구진은 대안적인 접근법을 제안했다. 대형 언어 모델을 사용하여 화합 명사를 포함하는 다양한 캡션을 생성하고, 이를 활용하여 텍스트-이미지 검색을 수행하는 방식이다. 이 방법은 CLIP과 OpenCLIP의 성능을 각각 8.25%와 2.35% 향상시켰다.
Stats
화합 명사 중 하나의 구성 명사가 다른 명사를 수식하는 유형에서 CLIP은 가장 많은 오류를 범했다.
CLIP의 정확한 예측에 대한 평균 유사도 점수는 약 25%±2%로 낮은 편이다.