최근 대규모 비전-언어 모델(VLM)은 시각적 콘텐츠에 대한 이해와 텍스트 설명 생성 능력을 보여주었지만, 사용자 특정 개념에 대한 이해가 부족하다. 이 연구에서는 VLM이 사용자가 제공한 개념을 학습하고 추론할 수 있도록 하는 첫 번째 단계를 취한다. 예를 들어, VLM이 이미지에서 당신을 인식하고 당신이 무엇을 하고 있는지 전달할 수 있는지 탐구한다.