이 논문은 비디오 변환기의 효율성을 높이는 방법을 제안한다. 비디오 변환기는 공간적, 시간적 의존성을 모두 포착할 수 있어 다양한 비디오 작업에서 우수한 성능을 보이지만, 전체 프레임에 걸쳐 많은 토큰을 처리해야 하므로 막대한 계산 비용이 발생한다.
저자들은 추가 학습 없이 배경 토큰을 병합하는 vid-TLDR 방법을 제안한다. 먼저 주의 집중 맵의 날카로움을 이용해 중요한 영역을 탐지한다. 그 다음 배경 토큰을 제거하고 전경 객체의 중요도를 높이는 방식으로 토큰을 병합한다.
실험 결과, vid-TLDR은 기존 모델 대비 최대 39.5%의 FLOPs 감소와 함께 경쟁력 있는 성능을 보였다. 또한 다른 비디오 변환기 모델에도 적용 가능하여 일반화 능력이 우수한 것으로 나타났다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Joonmyung Ch... في arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13347.pdfاستفسارات أعمق