Core Concepts
Eine interpretierbare Sprachrepräsentation, die iterativ aktualisiert wird und eine mehrskaligte Darstellung von Videoinformationen ermöglicht, um die Leistung von Großsprachmodellen bei der Verarbeitung von Langzeitvideos zu verbessern.
Abstract
Die Studie präsentiert ein Language Repository (LangRepo), eine interpretierbare Textrepräsentation, die iterativ aktualisiert wird, um Informationen aus Videochunks in mehreren zeitlichen Maßstäben zu erfassen.
LangRepo besteht aus zwei Hauptoperationen:
Schreiben in das Repository (write-to-repo): Hier werden redundante Textbeschreibungen aus Videochunks durch Gruppierung und Umformulierung effizient komprimiert, um die Kontextnutzung von Großsprachmodellen zu verbessern.
Lesen aus dem Repository (read-from-repo): Hier werden die gespeicherten Textbeschreibungen auf verschiedenen zeitlichen Skalen zusammengefasst, um Vorhersagen für Videoverständnisaufgaben wie visuelle Fragebeantworung zu generieren.
Die Autoren evaluieren LangRepo auf mehreren Benchmarks für Langzeitvideo-Verständnis, wie EgoSchema, NExT-QA, IntentQA und NExT-GQA. LangRepo zeigt im Vergleich zu anderen Methoden ähnlicher Größenordnung eine starke Leistung in diesen Aufgaben.
Stats
Die Leistung von Großsprachmodellen nimmt mit zunehmender Eingabelänge ab, selbst wenn die Kontextlänge ausreicht.
LangRepo zeigt eine stabilere Leistung bei zunehmender Eingabelänge im Vergleich zu Basislinien.
Quotes
"Selbst mit sehr großen Kontextlängen ist es eine Herausforderung, die Effektivität des Schlussfolgerns über längere Eingaben aufrechtzuerhalten."
"Sprache hat sich als dominante Modalität im maschinellen Sehen etabliert, da sie starke Generalisierungsfähigkeiten aufweist."