Der Artikel stellt ein neues Transferlernframework namens R2-Tuning vor, das für die zeitliche Verankerung von Videos entwickelt wurde. Das Kernkonzept ist, dass CLIP-Funktionen aus mehreren Schichten nützliche Informationen auf unterschiedlichen Granularitätsebenen bieten, deren Integration an die Zielaufgabe angepasst werden sollte.
R2-Tuning lernt einen leichtgewichtigen R2-Block, der rekursiv an die letzten Schichten des eingefrorenen CLIP-Encoders angehängt wird. Der R2-Block führt zwei Hauptschritte durch:
Abfrage-modulierte räumliche Pooling: Der R2-Block nutzt die Abfrage-Funktionen, um die räumlichen Merkmale aus früheren CLIP-Schichten adaptiv zu poolen und so die relevanten Regionen zu fokussieren.
Rekurrente zeitliche Verfeinerung: Ausgehend von den gepoolten räumlichen Merkmalen verfeinert der R2-Block die zeitlichen Korrelationen rekursiv, um von groben zu feinen Darstellungen zu gelangen.
Zusätzlich werden zwei Kontrastivverluste eingeführt, um die Granularität der visuellen und textuellen CLIP-Encoder aufeinander abzustimmen.
R2-Tuning erzielt state-of-the-art-Ergebnisse über drei Aufgaben der zeitlichen Verankerung von Videos (Momentrückgewinnung, Highlight-Erkennung, Videozusammenfassung) auf sechs öffentlichen Benchmarks, ohne zusätzliche Rückgrat-Netzwerke oder aufwendiges Vortraining zu verwenden. Dies demonstriert die Leistungsfähigkeit und Effizienz des vorgeschlagenen Ansatzes.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Ye Liu,Jixua... ב- arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00801.pdfשאלות מעמיקות