Der Artikel stellt einen Ansatz namens Koala vor, der darauf abzielt, die Fähigkeit vortrainierter videobasierter Großsprachmodelle (vLLMs) zu erweitern, um lange Videos besser zu verstehen.
Bestehende vLLMs, die auf Millionen kurzer Videoclips trainiert wurden, haben Schwierigkeiten, minütige Videos ganzheitlich zu verstehen und Fragen dazu zu beantworten. Um diese Einschränkung zu adressieren, führt Koala zwei neue Tokenizer-Funktionen ein:
Durch die Verwendung dieser Tokenizer-Funktionen kann Koala den eingefrorenen Videotokenizer in vortrainierten vLLMs adaptieren, um längere Videos ganzheitlich zu verstehen. Die Autoren zeigen, dass ihr Ansatz die Leistung von Baseline-vLLMs auf Benchmarks für Verständnis langer Videos deutlich verbessert, ohne die Fähigkeiten zum Verständnis kurzer Videos zu beeinträchtigen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Reuben Tan,X... alle arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04346.pdfDomande più approfondite