최근 대규모 비전-언어 모델(VLM)은 시각적 콘텐츠에 대한 이해와 텍스트 설명 생성 능력이 뛰어나지만, 사용자 특정 개념에 대한 이해가 부족하다. 이 연구에서는 VLM이 사용자가 제공한 개념을 학습하고 추론할 수 있도록 하는 첫 번째 단계를 취한다. 예를 들어 VLM이 이미지에서 당신을 인식하고 당신이 무엇을 하고 있는지 전달할 수 있도록 하여 개인의 경험과 관계를 반영하도록 한다.