Effizientes Video-Text-Retrieval durch Multimodale Video-Adapter
MV-Adapter ist eine neuartige Methode, die eine parametereffiziente Übertragung des Wissens aus einem vortrainierten Bildtext-Modell (CLIP) auf Video-Text-Retrieval-Aufgaben ermöglicht, ohne die Leistung zu beeinträchtigen.