다중 모달 대형 언어 모델의 지각 및 인지 능력을 포괄적으로 평가하기 위한 새로운 벤치마크 MME를 제안하고, 30개의 최신 모델을 평가하여 현재 모델의 한계와 개선 방향을 제시한다.
Veagle 모델은 기존 다중 모달 모델의 한계를 극복하고 이미지 내 텍스트 이해 능력을 크게 향상시킨다.