Core Concepts
단일 공유 비전 트랜스포머 백본을 사용하여 오디오와 비주얼 입력을 처리함으로써 파라미터 효율성을 높이고 GPU 메모리 사용량을 줄이며, 더 큰 데이터셋과 모델 크기로 확장할 수 있는 오디오-비주얼 사전 학습 모델
Abstract
이 논문은 오디오-비주얼 데이터 처리를 위한 효율적이고 확장 가능한 사전 학습 모델인 AVSiam을 소개한다. 기존의 오디오-비주얼 모델들은 독립적인 오디오와 비주얼 백본을 사용하여 비용이 많이 들고 확장성이 낮다는 문제가 있었다.
AVSiam은 단일 공유 비전 트랜스포머 백본을 사용하여 오디오와 비주얼 입력을 처리한다. 이를 통해 파라미터 효율성을 높이고 GPU 메모리 사용량을 줄일 수 있다. 또한 다양한 마스킹 비율을 적용하는 새로운 사전 학습 기법을 제안하여 더 큰 데이터셋과 모델 크기로 확장할 수 있게 하였다.
실험 결과, AVSiam은 기존 오디오-비주얼 모델들보다 훨씬 적은 리소스로 사전 학습이 가능하면서도 오디오-비주얼 분류와 검색 작업에서 경쟁력 있거나 더 나은 성능을 보였다. 특히 가장 큰 모델인 AVSiam-Huge는 기존 최고 성능 모델보다 28.9배 빠른 사전 학습 시간으로 최고 성능을 달성했다.
Stats
기존 최고 성능 모델인 MAViL-Stage2는 5,120 V100 GPU 시간이 소요되었지만, AVSiam-Huge는 800 V100 GPU 시간만 소요되었다.
AVSiam-Base는 AudioSet-2M에서 50.1 mAP, VGGSound에서 64.9% 정확도를 달성했다.
AVSiam-Large는 AudioSet-2M에서 52.1 mAP, VGGSound에서 67.1% 정확도를 달성했다.
AVSiam-Huge는 AudioSet-2M에서 54.1 mAP, VGGSound에서 68.0% 정확도를 달성했다.
Quotes
"Traditional audio-visual methods rely on independent audio and visual backbones, which is costly and not scalable."
"Unlike prior audio-visual methods, our method can robustly handle audio, visual, and audio-visual inputs with a single shared ViT backbone."
"Despite using the shared backbone for both modalities, AVSiam achieves competitive or even better results than prior methods on AudioSet and VGGSound for audio-visual classification and retrieval."