VisLingInstruct는 다중 모달 언어 모델의 제로 샷 학습 성능을 향상시키기 위해 자율적으로 텍스트 지침을 최적화하는 혁신적인 방법을 제안한다.
본 연구는 다중 모달 언어 모델의 제로 샷 학습 성능을 향상시키기 위해 자율적인 지침 최적화 기법 VisLingInstruct를 제안한다.