Concepts de base
Unser Ansatz Koala erweitert vortrainierte videobasierte Großsprachmodelle, um lange Videos besser zu verstehen, indem er lernbare räumlich-zeitliche Abfragen verwendet, um den globalen Kontext des Videos mit feingranularen Informationen auf Segmentebene zu verbinden.
Résumé
Der Artikel stellt einen Ansatz namens Koala vor, der darauf abzielt, die Fähigkeit vortrainierter videobasierter Großsprachmodelle (vLLMs) zu erweitern, um lange Videos besser zu verstehen.
Bestehende vLLMs, die auf Millionen kurzer Videoclips trainiert wurden, haben Schwierigkeiten, minütige Videos ganzheitlich zu verstehen und Fragen dazu zu beantworten. Um diese Einschränkung zu adressieren, führt Koala zwei neue Tokenizer-Funktionen ein:
- Der Conditioned Segment (CS) Tokenizer verwendet lernbare Segmentabfragen, um den globalen Kontext des Videos mit feingranularen Konzepten innerhalb jedes Segments zu verbinden.
- Der Conditioned Video (CV) Tokenizer führt zusätzlich lernbare zeitliche Konzeptabfragen ein, um die kontextuelle Beziehung zwischen Segmenten zu modellieren.
Durch die Verwendung dieser Tokenizer-Funktionen kann Koala den eingefrorenen Videotokenizer in vortrainierten vLLMs adaptieren, um längere Videos ganzheitlich zu verstehen. Die Autoren zeigen, dass ihr Ansatz die Leistung von Baseline-vLLMs auf Benchmarks für Verständnis langer Videos deutlich verbessert, ohne die Fähigkeiten zum Verständnis kurzer Videos zu beeinträchtigen.
Stats
Die Übergeordnete Zielsetzung des Individuums war es, einen detaillierten Notizblock-Umschlag zu erstellen.
Das Hauptziel des Individuums war es, eine umfassende, genaue Karte zu erstellen.
Citations
"Letztendlich war das übergeordnete Ziel und der Hauptfokus des Individuums, erfolgreich eine detaillierte Skizze zu erstellen."
"Das übergeordnete Ziel des Individuums war es, einen Notizblock-Umschlag zu erstellen."
"Das ultimative Ziel des Individuums war es, erfolgreich eine umfassende Liste selbst zu erstellen."