Der Artikel beschreibt ein Verfahren zur zeitlichen Verankerung von Videos, bei dem spezifische Momente oder Highlights aus einem Video identifiziert werden, die mit Textbeschreibungen übereinstimmen.
Zunächst wird ein adaptiver Kreuzaufmerksamkeitsmechanismus (ACA) vorgestellt, der Dummy-Token verwendet, um die Relevanz zwischen Videoclips und Textabfragen bei der Aufmerksamkeitsberechnung zu berücksichtigen. Dadurch können irrelevante Videoclips von der Textabfrage ausgeschlossen werden.
Darüber hinaus wird ein Clip-Wort-Korrelations-Lerner eingeführt, der die Ähnlichkeit zwischen Videoclips und einzelnen Wörtern in der Textabfrage schätzt und diese Information zur weiteren Kalibrierung der Aufmerksamkeitsberechnung nutzt.
Schließlich wird ein moment-adaptiver Salienz-Detektor präsentiert, der sowohl den Videokontext als auch die kalibrierte Grad der Kreuzmodal-Interaktion berücksichtigt, um die Salienz-Scores für jeden Videoclip zu berechnen.
Umfangreiche Experimente auf verschiedenen Benchmarks zeigen, dass der vorgeschlagene CG-DETR-Ansatz den Stand der Technik in Bezug auf die zeitliche Verankerung von Videos und die Erkennung von Highlights übertrifft.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések