대규모 멀티모달 모델의 계산 비용을 줄이기 위해 시각 토큰을 적응적으로 선택하고 병합하는 새로운 접근법을 제안한다. 이를 통해 성능 저하 없이 시각 토큰 수를 크게 줄일 수 있다.
대규모 멀티모달 모델의 비전 중심 기능을 향상시키기 위해 작업 무관 및 작업 특화 학습 단계를 분리하는 Lumen 모델을 제안한다.