본 논문은 비주얼 CoT라는 새로운 파이프라인을 제안하여 멀티모달 대형 언어 모델(MLLM)의 추론 기능을 향상시킨다. 이를 통해 MLLM이 시각적 입력에 대한 해석력과 복잡한 시각적 입력에 대한 처리 능력을 개선할 수 있다.