Core Concepts
CATP는 멀티모달 모델의 정확도를 유지하면서 계산 효율성을 높이는 토큰 가지치기 방법이다. 이를 위해 Cross-Attention 확률을 활용하여 토큰의 중요도를 평가하고, 정교한 투표 전략을 통해 토큰 중요도를 결정한다.
Abstract
이 논문은 멀티모달 모델의 계산 효율성 향상을 위한 Cross-Attention 토큰 가지치기 기법인 CATP를 소개한다.
BLIP-2 모델을 예로 들어, 모델의 대부분의 계산 비용이 LLM 디코더 부분에서 발생한다는 점을 지적한다. 기존의 가지치기 기법들은 모델 정확도를 크게 저하시키는 문제가 있다.
CATP는 Cross-Attention 층에서 추출한 토큰 간 관련성 정보를 활용하여 토큰의 중요도를 평가한다. 구체적으로, 각 이미지 토큰이 쿼리 토큰에 부여하는 점수를 투표 방식으로 집계하여 토큰 중요도를 결정한다.
실험 결과, CATP는 기존 가지치기 기법 대비 최대 12.1배 높은 정확도를 달성했다. 또한 초기/마지막 Cross-Attention 층의 정보가 더 유용하다는 점을 발견했다. 이미지 토큰의 중요도를 가중치로 반영하는 방식도 제안하여 성능을 더 높일 수 있었다.
Stats
BLIP-2 모델은 총 31억 개의 매개변수를 가지며, 이 중 LLM 디코더가 87%를 차지한다.
기존 가지치기 기법(Magnitude 기반, Self-Attention 기반)을 적용하면 VQA 정확도가 크게 저하된다.
CATP는 기존 기법 대비 최대 12.1배 높은 정확도를 달성했다.
초기/마지막 Cross-Attention 층의 정보가 더 유용하다.
이미지 토큰 중요도 가중치를 반영하면 정확도가 추가로 향상된다.
Quotes
"CATP는 멀티모달 모델의 정확도를 유지하면서 계산 효율성을 높이는 토큰 가지치기 방법이다."
"CATP는 기존 가지치기 기법 대비 최대 12.1배 높은 정확도를 달성했다."
"초기/마지막 Cross-Attention 층의 정보가 더 유용하다."