In dieser Arbeit stellen wir AVSiam, ein Audio-visuelles Siamese-Netzwerk, vor, das einen einzigen geteilten Vision-Transformer-Rückgrat verwendet, um Audio- und Videodaten effizient und skalierbar zu verarbeiten.
Im Gegensatz zu herkömmlichen Audio-visuellen Methoden, die separate Audio- und Videobackbones verwenden, ist AVSiam deutlich ressourcenschonender, da es nur einen einzigen Rückgrat für beide Modalitäten verwendet. Trotz dieser Effizienz erzielt AVSiam wettbewerbsfähige oder sogar bessere Ergebnisse auf Audio-visuellen Klassifizierungs- und Retrieval-Benchmarks wie AudioSet und VGGSound.
Unser Ansatz verwendet einen neuartigen Multi-Ratio-Maskierungsansatz, bei dem Audio- und Videotokens während des Trainings mit unterschiedlichen Raten maskiert werden. Dies ermöglicht es unserem Modell, robuste Darstellungen über ein Spektrum von verfügbaren Informationen zu lernen. Darüber hinaus ermöglicht die geteilte Audio-visuelle Backbone-Architektur von AVSiam die Verwendung größerer Audio-visuelle Batch-Größen, was dem Kontrastiv-Lernprozess zugute kommt.
Unsere Experimente zeigen, dass AVSiam Audio-only, Video-only oder Audio-visuelle Eingaben mit einem einzigen geteilten Backbone robust verarbeiten kann. Darüber hinaus erreicht AVSiam trotz der Verwendung eines gemeinsamen Rückgrats für beide Modalitäten wettbewerbsfähige oder sogar bessere Ergebnisse als frühere Methoden mit separaten Audio- und Videobackbones auf Audio-visuellen Klassifizierungs- und Retrieval-Benchmarks, bei gleichzeitig deutlich geringerem Ressourcenverbrauch für das Vortraining.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문