Der Artikel präsentiert eine neue Methode namens "Multimodal Video Adapter" (MV-Adapter), die eine parametereffiziente Übertragung des Wissens aus dem vortrainierten CLIP-Modell auf Video-Text-Retrieval-Aufgaben ermöglicht.
Herausforderungen bei der parametereffizienten Übertragung sind die Anpassung an die Videodomäne und die Aufrechterhaltung der Leistung. MV-Adapter adressiert diese Herausforderungen durch zwei Hauptkomponenten:
Temporale Anpassung (TA): Dieses Modul führt eine globale und lokale temporale Modellierung in den Videozweig ein, um die zeitlichen Kontextinformationen zu erfassen.
Kreuzmodale Bindung (CMT): Dieses Modul generiert die Gewichte für die Video- und Textbranchen aus einem gemeinsamen modalen Parameterraum, um die semantische Ausrichtung zwischen den Modalitäten zu verbessern.
Durch diese Innovationen kann MV-Adapter eine vergleichbare oder sogar bessere Leistung als das vollständige Finetuning erreichen, bei gleichzeitig geringem Parameteraufwand. In umfangreichen Experimenten auf fünf gängigen Video-Text-Retrieval-Benchmarks übertrifft MV-Adapter verschiedene konkurrierende Methoden deutlich in Bezug auf Leistung und Effizienz.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Xiaojie Jin,... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2301.07868.pdfDypere Spørsmål