이 연구는 대규모 멀티모달 모델(LMM)의 효율성을 높이기 위한 새로운 접근법을 제안한다. LMM은 비전 인코더와 대규모 언어 모델을 결합하여 강력한 추론 능력을 보여주지만, 많은 계산 비용이 소요된다. 특히 입력 토큰 수가 증가할수록 계산 비용이 급격히 증가하는 문제가 있다.
이 연구에서는 시각 토큰의 중복성을 활용하여 토큰 수를 크게 줄이는 방법을 제안한다. 구체적으로 다음과 같은 두 가지 핵심 기술을 사용한다:
적응적 중요 토큰 선택(AITS): 클래스 토큰과 공간 토큰 간 유사도를 기반으로 중요한 시각 토큰을 선별한다. 이를 위해 이상치 탐지 알고리즘인 IQR 방법을 활용한다.
토큰 보완(TS): 선별된 토큰 외에 나머지 토큰들의 정보를 활용하기 위해 유사도 기반 클러스터링을 수행하고, 가중 평균을 통해 토큰을 보완한다.
이 두 기술을 LLaVA-1.5 모델에 적용한 결과, 평균 6.9%의 시각 토큰만을 사용하면서도 다양한 시각 질문 답변 및 추론 작업에서 기존 모델과 유사한 성능을 달성할 수 있었다. 이를 통해 LMM의 효율성을 크게 향상시킬 수 있음을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yuzhang Shan... alle arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15388.pdfDomande più approfondite