이 논문은 비디오 변환기의 효율성을 높이는 방법을 제안한다. 비디오 변환기는 공간적, 시간적 의존성을 모두 포착할 수 있어 다양한 비디오 작업에서 우수한 성능을 보이지만, 전체 프레임에 걸쳐 많은 토큰을 처리해야 하므로 막대한 계산 비용이 발생한다.
저자들은 추가 학습 없이 배경 토큰을 병합하는 vid-TLDR 방법을 제안한다. 먼저 주의 집중 맵의 날카로움을 이용해 중요한 영역을 탐지한다. 그 다음 배경 토큰을 제거하고 전경 객체의 중요도를 높이는 방식으로 토큰을 병합한다.
실험 결과, vid-TLDR은 기존 모델 대비 최대 39.5%의 FLOPs 감소와 함께 경쟁력 있는 성능을 보였다. 또한 다른 비디오 변환기 모델에도 적용 가능하여 일반화 능력이 우수한 것으로 나타났다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы