Concepts de base
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 추론 효율성을 향상시키기 위해 비전 토큰의 중요도를 전체 수명 주기(비전 인코딩, 프리필링, 디코딩)에서 측정하여 불필요한 토큰을 단계적으로 제거하는 MustDrop이라는 새로운 방법을 제안합니다.
Résumé
MustDrop: 다단계 비전 토큰 드롭을 통한 효율적인 멀티모달 대규모 언어 모델 구축
본 논문은 멀티모달 대규모 언어 모델(MLLM)의 추론 효율성을 향상시키기 위한 새로운 토큰 감소 기법인 MustDrop(Multi-Stage Vision Token Dropping)을 제안하는 연구 논문입니다.
연구 배경
MLLM은 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하여 인공지능 분야에서 주목받고 있습니다. 하지만, MLLM은 이미지 처리 과정에서 생성되는 방대한 양의 비전 토큰으로 인해 높은 메모리 및 계산 비용이 발생한다는 문제점을 가지고 있습니다. 이는 Transformer 아키텍처의 특성상 입력 토큰의 길이에 따라 계산 비용이 기하급수적으로 증가하기 때문입니다. 특히, 고해상도 이미지나 긴 동영상의 경우 이러한 문제가 더욱 심각해집니다.
기존 연구의 한계
기존 연구들은 MLLM의 비전 토큰 감소 문제를 해결하기 위해 다양한 방법들을 제시했습니다. 하지만 이러한 방법들은 비전 인코딩 단계에서만 토큰을 제거하거나, 텍스트 정보를 고려하지 않고 무작위로 토큰을 삭제하여 모델의 성능을 저하시키는 한계를 보였습니다.
MustDrop의 주요 접근 방식
MustDrop은 MLLM의 세 가지 계산 단계(비전 인코딩, 프리필링, 디코딩) 각각에서 비전 토큰의 역할을 심층적으로 분석하고, 각 단계에 최적화된 전략을 통해 불필요한 토큰을 효과적으로 제거합니다.
1. 비전 인코딩 단계
- 공간적 중복 제거: MustDrop은 인접한 비전 토큰 간의 유사성을 기반으로 공간적 중복을 제거합니다. 유사도가 높은 인접 토큰들을 병합하여 대표 토큰으로 대체함으로써 토큰의 수를 줄이고 계산 효율성을 높입니다.
- 핵심 토큰 식별 및 보존: MustDrop은 이미지 이해에 필수적인 핵심 토큰을 식별하고 이를 보존합니다. 이를 통해 비전 정보 손실을 최소화하면서 토큰 감소를 수행할 수 있습니다.
2. 프리필링 단계
- 텍스트 의미 기반 토큰 필터링: MustDrop은 텍스트 정보를 활용하여 이미지와 관련성이 낮은 비전 토큰을 제거합니다. 이중 주의 필터링 메커니즘을 통해 전체 텍스트와의 관련성뿐만 아니라 개별 텍스트 토큰과의 관련성까지 고려하여 불필요한 토큰을 정확하게 식별하고 제거합니다.
3. 디코딩 단계
- 출력 기반 캐시 정책: MustDrop은 디코딩 단계에서 출력 토큰과 관련성이 낮은 비전 토큰을 추가적으로 제거합니다. 이전 단계에서 이미 많은 수의 비전 토큰이 제거되었기 때문에, 디코딩 단계에서는 출력에 직접적으로 영향을 미치지 않는 토큰들을 제거하여 KV 캐시의 저장 공간을 효율적으로 활용합니다.
실험 결과
MustDrop은 다양한 멀티모달 벤치마크에서 광범위하게 평가되었으며, 이미지 및 비디오 기반 멀티모달 이해 작업 모두에서 뛰어난 성능을 보였습니다. 특히 MustDrop은 기존의 최첨단 방법인 SparseVLM보다 정확도가 2.1%~6.6% 높으면서도 LLaVA-Next-7B에서 평균 88.9%의 압축률을 달성했습니다.
결론
MustDrop은 MLLM의 추론 효율성을 크게 향상시키는 동시에 성능 저하를 최소화하는 효과적인 방법입니다. MustDrop은 비전 토큰 감소 문제에 대한 새로운 접근 방식을 제시하며, 향후 다양한 MLLM 아키텍처에 적용되어 더욱 효율적이고 효과적인 멀티모달 모델 개발에 기여할 것으로 기대됩니다.
Stats
MustDrop은 LLaVA-Next-7B에서 평균 88.9%의 압축률을 달성했습니다.
MustDrop은 SparseVLM보다 정확도가 2.1%~6.6% 높습니다.
TextVQA 데이터셋에서 MustDrop은 토큰 수를 약 11.1%만 사용하여 데이터 양을 크게 줄였습니다.
MustDrop을 사용하면 속도가 약 41.5% 빨라집니다.
MustDrop은 저장 공간을 1344.1MB 줄이고 FLOPs를 약 88.5% 줄입니다.
MustDrop의 추론 시간은 SparseVLM보다 15.6% 빠릅니다.
Citations
"These problems raise an intuitive question - “how to select the most suitable tokens for pruning based on the information from the whole inference process of MLLM?”"