Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen
Das Ziel ist es, spezifische Momente oder Highlights aus einem Video zu identifizieren, die mit Textbeschreibungen übereinstimmen. Dazu wird ein Korrelations-gesteuerter Erkennungs-Transformer (CG-DETR) vorgeschlagen, der die Relevanz zwischen Videoclips und Textabfragen bei der Aufmerksamkeitsberechnung berücksichtigt und eine moment-adaptive Salienz-Erkennung nutzt.