核心概念
본 논문에서는 사전 학습된 비전 트랜스포머에서 '시각적 앵커'의 존재를 밝히고, 이를 정보 집계에 활용하여 멀티모달 대규모 언어 모델(MLLM)의 정확도와 효율성을 향상시키는 새로운 비전-언어 연결기인 앵커 포머(AcFormer)를 제안합니다.
摘要
멀티모달 대규모 언어 모델을 위한 시각적 앵커 기반 정보 집계: 앵커 포머 소개
제목: Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
저자: Haogeng Liu, Quanzeng You, Xiaotian Han, Yongfei Liu, Huaibo Huang, Ran He, Hongxia Yang
발표: NeurIPS 2024
본 연구는 멀티모달 대규모 언어 모델(MLLM)에서 비전 인코더와 언어 모델을 연결하는 비전-언어 연결기의 효율성을 개선하고자 합니다. 특히, 기존 방법 대비 계산 비용을 줄이면서도 높은 정확도를 달성하는 데 중점을 둡니다.