核心概念
Das Ziel ist es, spezifische Momente oder Highlights aus einem Video zu identifizieren, die mit Textbeschreibungen übereinstimmen. Dazu wird ein Korrelations-gesteuerter Erkennungs-Transformer (CG-DETR) vorgeschlagen, der die Relevanz zwischen Videoclips und Textabfragen bei der Aufmerksamkeitsberechnung berücksichtigt und eine moment-adaptive Salienz-Erkennung nutzt.
要約
Der Artikel beschreibt ein Verfahren zur zeitlichen Verankerung von Videos, bei dem spezifische Momente oder Highlights aus einem Video identifiziert werden, die mit Textbeschreibungen übereinstimmen.
Zunächst wird ein adaptiver Kreuzaufmerksamkeitsmechanismus (ACA) vorgestellt, der Dummy-Token verwendet, um die Relevanz zwischen Videoclips und Textabfragen bei der Aufmerksamkeitsberechnung zu berücksichtigen. Dadurch können irrelevante Videoclips von der Textabfrage ausgeschlossen werden.
Darüber hinaus wird ein Clip-Wort-Korrelations-Lerner eingeführt, der die Ähnlichkeit zwischen Videoclips und einzelnen Wörtern in der Textabfrage schätzt und diese Information zur weiteren Kalibrierung der Aufmerksamkeitsberechnung nutzt.
Schließlich wird ein moment-adaptiver Salienz-Detektor präsentiert, der sowohl den Videokontext als auch die kalibrierte Grad der Kreuzmodal-Interaktion berücksichtigt, um die Salienz-Scores für jeden Videoclip zu berechnen.
Umfangreiche Experimente auf verschiedenen Benchmarks zeigen, dass der vorgeschlagene CG-DETR-Ansatz den Stand der Technik in Bezug auf die zeitliche Verankerung von Videos und die Erkennung von Highlights übertrifft.
統計
"Nicht alle Wörter tragen in gleichem Maße zur Relevanz eines Videoclips bei, auch wenn sie Teil einer sehr relevanten Textabfrage sind."
"Die Verwendung von Dummy-Token ermöglicht es, den Grad der Einbindung des Textes in die Videokodierung zu manipulieren."
"Der moment-adaptive Salienz-Detektor nutzt sowohl den Videokontext als auch den kalibrierten Grad der Kreuzmodal-Interaktion, um die Salienz-Scores für jeden Videoclip zu berechnen."
引用
"Typische Ansätze in der zeitlichen Verankerung behandeln alle Videoclips während des Kodierungsprozesses gleich, unabhängig von ihrer semantischen Relevanz mit der Textabfrage."
"Wir behaupten, dass ein undifferenzierter Grad der Text-zu-Video-Aufmerksamkeit (Texteinbindung in Videoclips) in Szenarien der Momentensuche, in denen Benutzer nach spezifischen Videosegmenten suchen, ebenfalls erheblich zu einer unzureichenden Textreflexion beiträgt."