Die Autoren stellen ein neuartiges agentenbasiertes System namens VideoAgent vor, das ein großes Sprachmodell als zentralen Agenten verwendet, um iterativ entscheidende Informationen zu identifizieren und zusammenzustellen, um eine Frage zu beantworten. Dabei dienen Sprachmodelle für Sprache und Bilder als Werkzeuge, um visuelle Informationen zu übersetzen und abzurufen.
VideoAgent simuliert den menschlichen Prozess des Verstehens von Langform-Videos, indem es den Videoverstehungsprozess als eine Abfolge von Zuständen, Aktionen und Beobachtungen modelliert. Zu Beginn verschafft sich der LLM-Agent einen Überblick über den Videokontext, indem er eine Reihe von Frames gleichmäßig abtastet. Anschließend beurteilt der Agent iterativ, ob die vorhandenen Informationen ausreichen, um die Frage zu beantworten. Wenn nicht, identifiziert er, welche zusätzlichen Informationen benötigt werden, und verwendet CLIP, um relevante Frames abzurufen, und VLM, um diese Frames in Textbeschreibungen umzuwandeln, um den aktuellen Zustand zu aktualisieren.
Die Autoren zeigen, dass VideoAgent im Vergleich zu bestehenden Methoden eine überlegene Effektivität und Effizienz bei der Verarbeitung und dem Verständnis komplexer Fragen aus Langform-Videos aufweist. VideoAgent erzielt auf den Benchmarks EgoSchema und NExT-QA Spitzenleistungen und verwendet dabei im Durchschnitt nur 8,4 bzw. 8,2 Frames pro Video.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xiaohan Wang... at arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.10517.pdfDeeper Inquiries