최근 대규모 비전-언어 모델(VLM)은 시각적 콘텐츠에 대한 이해와 텍스트 설명 생성 능력을 보여주었지만, 사용자 특정 개념에 대한 이해가 부족하다. 이 연구에서는 VLM이 사용자가 제공한 개념을 학습하고 추론할 수 있도록 하는 첫 번째 단계를 취한다.