Core Concepts
Ein Modell, das Fragen zu langen egozentrische Videos gleichzeitig zeitlich verorten und beantworten kann.
Abstract
Die Studie befasst sich mit der Aufgabe des grounded question-answering in langen egozentrische Videos. Dabei müssen Fragen zu den Videos nicht nur beantwortet, sondern auch zeitlich in den Videos verortet werden.
Die Herausforderungen dabei sind:
- Die Komplexität, Fragen zeitlich in den umfangreichen Videoinhalten zu verorten
- Der hohe Aufwand für präzise Datenbeschriftung
- Die Schwierigkeit, offene Antworten aufgrund ihrer Mehrdeutigkeit zu bewerten
Der Lösungsansatz umfasst:
- Ein vereinheitlichtes Modell, das Fragen-Verortung und Beantwortung gemeinsam lernt, um Fehlerfortpflanzung zu reduzieren.
- Den Einsatz großer Sprachmodelle zur effizienten und skalierbaren Datengenerierung.
- Die Einführung einer geschlossenen Frage-Antwort-Aufgabe zur Bewältigung der Antwortambiguität.
Die Experimente zeigen die Effektivität des Ansatzes, der auch state-of-the-art-Leistungen auf den Benchmarks QAEGO4D und Ego4D-NLQ erzielt.
Stats
"Die Eingabe folgt dem Format question: ? video: ."
"Die Eingabe ist strukturiert als question: ? choices: . video: ."
Quotes
"Existing approaches to video understanding, mainly designed for short videos from a third-person perspective, are limited in their applicability in certain fields, such as robotics."
"Question-answering (QA) in long egocentric videos is challenging, primarily due to the complexity of temporally grounding and generating answers to the queries within extensive video content."