Der Artikel befasst sich mit dem Problem der spärlichen Annotationen in Videoverankerungsdatensätzen. Bisherige Methoden ignorieren die Präsenz von nicht annotierten Aktionsinstanzen, die für die Verankerung hilfreich sein könnten.
Der Autor schlägt vor, Informationen aus leicht verfügbaren Hilfsbeschriftungen zu nutzen, um die Leistung zu verbessern. Dafür wird zunächst ein Dichtbeschriftungsmodell verwendet, um dichte Beschriftungen zu generieren. Anschließend werden die Hilfsbeschriftungen durch ein Unterdrückungsverfahren extrahiert.
Um die Informationen aus den Hilfsbeschriftungen zu nutzen, wird eine Caption Guided Attention (CGA) entwickelt, die die semantischen Beziehungen zwischen Hilfsbeschriftungen und Abfragensätzen in den Zeitraum projiziert und in die visuellen Darstellungen integriert. Außerdem wird eine asymmetrische kreuzmodale kontrastive Lernmethode (ACCL) vorgeschlagen, um mehr negative Paare aus den Hilfsbeschriftungen zu extrahieren.
Umfangreiche Experimente auf drei öffentlichen Datensätzen zeigen, dass die vorgeschlagene Methode die Leistung deutlich verbessert und eine gute Verallgemeinerbarkeit aufweist.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hongxiang Li... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2301.05997.pdfDybere Forespørgsler