Die Studie präsentiert einen neuen Ansatz für die dichte Videobeschriftung, der von der kognitiven Informationsverarbeitung des Menschen inspiriert ist. Das vorgeschlagene Modell, genannt Cross-Modal Memory-based dense video captioning (CM2), nutzt einen externen Speicher, um relevante Informationen abzurufen und diese in den Prozess der Ereigniserkennung und Beschriftungsgenerierung einzubinden.
Zunächst wird ein externer Speicher aufgebaut, indem Satzmerkmale aus den Trainingsdaten extrahiert und gespeichert werden. Dann wird für jedes Segment des Eingabevideos relevante Information aus dem Speicher abgerufen, indem eine kreuzmodale Ähnlichkeitssuche durchgeführt wird. Um die abgerufenen Informationen effektiv zu nutzen, wird eine vielseitige Encoder-Decoder-Architektur mit modalen Kreuzaufmerksamkeitsmodulen entwickelt.
Die umfangreichen Experimente auf den Benchmarkdatensätzen ActivityNet Captions und YouCook2 zeigen, dass unser Ansatz die Leistung bei der Ereigniserkennung und Beschriftungsgenerierung im Vergleich zu Methoden ohne Speicherabfrage deutlich verbessern kann. Insbesondere erreicht unser Modell konkurrenzfähige Ergebnisse, ohne auf große Videodatensätze für das Vortraining angewiesen zu sein.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések