Der Artikel stellt ein neues Transferlernframework namens R2-Tuning vor, das für die zeitliche Verankerung von Videos entwickelt wurde. Das Kernkonzept ist, dass CLIP-Funktionen aus mehreren Schichten nützliche Informationen auf unterschiedlichen Granularitätsebenen bieten, deren Integration an die Zielaufgabe angepasst werden sollte.
R2-Tuning lernt einen leichtgewichtigen R2-Block, der rekursiv an die letzten Schichten des eingefrorenen CLIP-Encoders angehängt wird. Der R2-Block führt zwei Hauptschritte durch:
Abfrage-modulierte räumliche Pooling: Der R2-Block nutzt die Abfrage-Funktionen, um die räumlichen Merkmale aus früheren CLIP-Schichten adaptiv zu poolen und so die relevanten Regionen zu fokussieren.
Rekurrente zeitliche Verfeinerung: Ausgehend von den gepoolten räumlichen Merkmalen verfeinert der R2-Block die zeitlichen Korrelationen rekursiv, um von groben zu feinen Darstellungen zu gelangen.
Zusätzlich werden zwei Kontrastivverluste eingeführt, um die Granularität der visuellen und textuellen CLIP-Encoder aufeinander abzustimmen.
R2-Tuning erzielt state-of-the-art-Ergebnisse über drei Aufgaben der zeitlichen Verankerung von Videos (Momentrückgewinnung, Highlight-Erkennung, Videozusammenfassung) auf sechs öffentlichen Benchmarks, ohne zusätzliche Rückgrat-Netzwerke oder aufwendiges Vortraining zu verwenden. Dies demonstriert die Leistungsfähigkeit und Effizienz des vorgeschlagenen Ansatzes.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ye Liu,Jixua... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00801.pdfDeeper Inquiries