본 논문에서는 다층 시각적 특징을 활용하여 시각적 토큰 수를 줄이면서도 공간 정보를 효과적으로 처리하여 MLLM의 성능을 향상시키는 공간 인식 효율적 프로젝터(SAEP)를 제안합니다.
대규모 언어 모델(LLM)을 컴퓨터 비전과 결합한 시각적 자연어 이해(NLU) 분야에서 모델의 성능과 효율성 사이의 균형을 맞추는 것이 중요하며, ELVA는 이러한 균형을 달성하는 효율적인 모델 아키텍처를 제시한다.