Der Artikel stellt ein neues Transferlernframework namens R2-Tuning vor, das für die zeitliche Verankerung von Videos entwickelt wurde. Das Kernkonzept ist, dass CLIP-Funktionen aus mehreren Schichten nützliche Informationen auf unterschiedlichen Granularitätsebenen bieten, deren Integration an die Zielaufgabe angepasst werden sollte.
R2-Tuning lernt einen leichtgewichtigen R2-Block, der rekursiv an die letzten Schichten des eingefrorenen CLIP-Encoders angehängt wird. Der R2-Block führt zwei Hauptschritte durch:
Abfrage-modulierte räumliche Pooling: Der R2-Block nutzt die Abfrage-Funktionen, um die räumlichen Merkmale aus früheren CLIP-Schichten adaptiv zu poolen und so die relevanten Regionen zu fokussieren.
Rekurrente zeitliche Verfeinerung: Ausgehend von den gepoolten räumlichen Merkmalen verfeinert der R2-Block die zeitlichen Korrelationen rekursiv, um von groben zu feinen Darstellungen zu gelangen.
Zusätzlich werden zwei Kontrastivverluste eingeführt, um die Granularität der visuellen und textuellen CLIP-Encoder aufeinander abzustimmen.
R2-Tuning erzielt state-of-the-art-Ergebnisse über drei Aufgaben der zeitlichen Verankerung von Videos (Momentrückgewinnung, Highlight-Erkennung, Videozusammenfassung) auf sechs öffentlichen Benchmarks, ohne zusätzliche Rückgrat-Netzwerke oder aufwendiges Vortraining zu verwenden. Dies demonstriert die Leistungsfähigkeit und Effizienz des vorgeschlagenen Ansatzes.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Ye Liu,Jixua... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00801.pdfสอบถามเพิ่มเติม