Der Artikel befasst sich mit dem Problem der spärlichen Annotationen in Videoverankerungsdatensätzen. Bisherige Methoden ignorieren die Präsenz von nicht annotierten Aktionsinstanzen, die für die Verankerung hilfreich sein könnten.
Der Autor schlägt vor, Informationen aus leicht verfügbaren Hilfsbeschriftungen zu nutzen, um die Leistung zu verbessern. Dafür wird zunächst ein Dichtbeschriftungsmodell verwendet, um dichte Beschriftungen zu generieren. Anschließend werden die Hilfsbeschriftungen durch ein Unterdrückungsverfahren extrahiert.
Um die Informationen aus den Hilfsbeschriftungen zu nutzen, wird eine Caption Guided Attention (CGA) entwickelt, die die semantischen Beziehungen zwischen Hilfsbeschriftungen und Abfragensätzen in den Zeitraum projiziert und in die visuellen Darstellungen integriert. Außerdem wird eine asymmetrische kreuzmodale kontrastive Lernmethode (ACCL) vorgeschlagen, um mehr negative Paare aus den Hilfsbeschriftungen zu extrahieren.
Umfangreiche Experimente auf drei öffentlichen Datensätzen zeigen, dass die vorgeschlagene Methode die Leistung deutlich verbessert und eine gute Verallgemeinerbarkeit aufweist.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Hongxiang Li... pada arxiv.org 03-26-2024
https://arxiv.org/pdf/2301.05997.pdfPertanyaan yang Lebih Dalam