Der Artikel stellt einen Ansatz namens Koala vor, der darauf abzielt, die Fähigkeit vortrainierter videobasierter Großsprachmodelle (vLLMs) zu erweitern, um lange Videos besser zu verstehen.
Bestehende vLLMs, die auf Millionen kurzer Videoclips trainiert wurden, haben Schwierigkeiten, minütige Videos ganzheitlich zu verstehen und Fragen dazu zu beantworten. Um diese Einschränkung zu adressieren, führt Koala zwei neue Tokenizer-Funktionen ein:
Durch die Verwendung dieser Tokenizer-Funktionen kann Koala den eingefrorenen Videotokenizer in vortrainierten vLLMs adaptieren, um längere Videos ganzheitlich zu verstehen. Die Autoren zeigen, dass ihr Ansatz die Leistung von Baseline-vLLMs auf Benchmarks für Verständnis langer Videos deutlich verbessert, ohne die Fähigkeiten zum Verständnis kurzer Videos zu beeinträchtigen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Reuben Tan,X... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04346.pdfDeeper Inquiries