Effiziente und skalierbare Audio-visuelle Lerntransformatoren
Unser Ansatz AVSiam verwendet einen einzigen geteilten Vision-Transformer-Rückgrat, um Audio- und Videodaten effizient und skalierbar zu verarbeiten. Im Vergleich zu herkömmlichen Methoden, die separate Audio- und Videobackbones verwenden, ist AVSiam deutlich ressourcenschonender und erzielt dennoch wettbewerbsfähige oder sogar bessere Ergebnisse auf Audio-visuellen Klassifizierungs- und Retrieval-Benchmarks.