본 연구는 기존 비전-언어 모델의 한계를 극복하기 위해 자기 질문 학습 기법을 제안한다. 이를 통해 모델은 이미지 내 정보를 효과적으로 활용하여 다양하고 의미 있는 질문을 생성할 수 있게 되며, 이는 비전-언어 이해 능력 향상으로 이어진다.