본 논문은 멀티모달 대규모 언어 모델(MLLM)의 추론 효율성을 향상시키기 위한 새로운 토큰 감소 기법인 MustDrop(Multi-Stage Vision Token Dropping)을 제안하는 연구 논문입니다.
MLLM은 대규모 언어 모델(LLM)에 시각적 이해 능력을 부여하여 인공지능 분야에서 주목받고 있습니다. 하지만, MLLM은 이미지 처리 과정에서 생성되는 방대한 양의 비전 토큰으로 인해 높은 메모리 및 계산 비용이 발생한다는 문제점을 가지고 있습니다. 이는 Transformer 아키텍처의 특성상 입력 토큰의 길이에 따라 계산 비용이 기하급수적으로 증가하기 때문입니다. 특히, 고해상도 이미지나 긴 동영상의 경우 이러한 문제가 더욱 심각해집니다.
기존 연구들은 MLLM의 비전 토큰 감소 문제를 해결하기 위해 다양한 방법들을 제시했습니다. 하지만 이러한 방법들은 비전 인코딩 단계에서만 토큰을 제거하거나, 텍스트 정보를 고려하지 않고 무작위로 토큰을 삭제하여 모델의 성능을 저하시키는 한계를 보였습니다.
MustDrop은 MLLM의 세 가지 계산 단계(비전 인코딩, 프리필링, 디코딩) 각각에서 비전 토큰의 역할을 심층적으로 분석하고, 각 단계에 최적화된 전략을 통해 불필요한 토큰을 효과적으로 제거합니다.
MustDrop은 다양한 멀티모달 벤치마크에서 광범위하게 평가되었으며, 이미지 및 비디오 기반 멀티모달 이해 작업 모두에서 뛰어난 성능을 보였습니다. 특히 MustDrop은 기존의 최첨단 방법인 SparseVLM보다 정확도가 2.1%~6.6% 높으면서도 LLaVA-Next-7B에서 평균 88.9%의 압축률을 달성했습니다.
MustDrop은 MLLM의 추론 효율성을 크게 향상시키는 동시에 성능 저하를 최소화하는 효과적인 방법입니다. MustDrop은 비전 토큰 감소 문제에 대한 새로운 접근 방식을 제시하며, 향후 다양한 MLLM 아키텍처에 적용되어 더욱 효율적이고 효과적인 멀티모달 모델 개발에 기여할 것으로 기대됩니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ting Liu, Li... alle arxiv.org 11-19-2024
https://arxiv.org/pdf/2411.10803.pdfDomande più approfondite