MiniGPT-5는 텍스트와 이미지를 통합적으로 생성할 수 있는 새로운 접근법을 제시합니다. 이를 위해 "생성 보켄(generative vokens)"이라는 특별한 시각 토큰을 도입하고, 두 단계의 훈련 전략과 분류기 없는 지침 기법을 활용하여 생성된 텍스트와 이미지의 일관성을 높입니다.