VLLaVO는 비전 언어 모델과 대형 언어 모델을 결합하여 시각 도메인 간 격차를 해소한다. 비전 언어 모델을 사용하여 이미지를 상세한 텍스트 설명으로 변환하고, 대형 언어 모델을 설계된 질문 지침 템플릿으로 미세 조정하여 도메인 불변 특징에 집중하도록 한다.