이 논문은 다중 모달 언어 모델(MMLM)의 제로 샷 학습 성능을 향상시키기 위한 VisLingInstruct라는 새로운 접근법을 소개한다.
현재 MMLM은 다중 모달 작업에서 인상적인 제로 샷 능력을 보여주지만, 그 성능은 지침의 품질에 크게 의존한다. VisLingInstruct는 In-Context Learning을 통해 지침 텍스트를 자율적으로 평가하고 최적화함으로써 MMLM의 시각적 인식과 언어적 표현 간의 시너지를 향상시킨다.
또한 MMLM의 시각적 특징 추출 모듈을 최적화하여 텍스트 단서에 대한 반응성을 더욱 높였다. 실험 결과, VisLingInstruct는 FlanT5와 Vicuna 기반 MMLM에서 시각적 다중 모달 작업의 제로 샷 성능을 크게 향상시켰다. 특히 TextVQA와 HatefulMemes 데이터셋에서 각각 13.1%와 9%의 정확도 향상을 달성했다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询