Das Ziel ist es, spezifische Momente oder Highlights aus einem Video zu identifizieren, die mit Textbeschreibungen übereinstimmen. Dazu wird ein Korrelations-gesteuerter Erkennungs-Transformer (CG-DETR) vorgeschlagen, der die Relevanz zwischen Videoclips und Textabfragen bei der Aufmerksamkeitsberechnung berücksichtigt und eine moment-adaptive Salienz-Erkennung nutzt.
R2-Tuning ist ein parameter- und speichereffizientes Transferlernframework für die zeitliche Verankerung von Videos, das eine leichtgewichtige Seitenkomponente (R2-Block) erlernt, die rekursiv an die letzten Schichten eines eingefrorenen CLIP-Modells angehängt wird, um räumliche Details adaptiv zu poolen und zeitliche Korrelationen zu verfeinern.