이 논문은 시간 동작 검출(Temporal Action Localization, TAL) 문제를 다룬다. TAL은 비디오에서 동작 구간을 찾고 분류하는 작업이다. 최근 대규모 비디오 기반 모델이 등장하면서 RGB 특징만으로도 이전 방법들을 능가하는 성능을 보이고 있다. 그러나 이러한 대규모 모델을 TAL에 적용하기 위해서는 메모리 문제가 발생한다.
LoSA는 이 문제를 해결하기 위해 메모리 및 매개변수 효율적인 백본 어댑터를 제안한다. LoSA는 비디오 백본의 중간 층에 Long-range 및 Short-range 어댑터를 병렬로 연결하여 중간 층의 시간 정보를 활용한다. 이를 통해 긴 시간 범위와 짧은 시간 범위의 시간 의존성을 모델링할 수 있다. 또한 Long-Short-range Fusion 모듈을 통해 중간 층의 출력을 효과적으로 융합하여 TAL 성능을 향상시킨다.
실험 결과, LoSA는 THUMOS-14와 ActivityNet-v1.3 데이터셋에서 기존 방법들을 크게 능가하는 성능을 보였다. 특히 10억 개 이상의 매개변수를 가진 VideoMAEv2(ViT-g) 모델에 대해 메모리 및 매개변수 효율성을 유지하면서 end-to-end 백본 적응을 수행할 수 있었다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Akshita Gupt... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01282.pdfDypere Spørsmål