Der Artikel stellt einen Ansatz namens Koala vor, der darauf abzielt, die Fähigkeit vortrainierter videobasierter Großsprachmodelle (vLLMs) zu erweitern, um lange Videos besser zu verstehen.
Bestehende vLLMs, die auf Millionen kurzer Videoclips trainiert wurden, haben Schwierigkeiten, minütige Videos ganzheitlich zu verstehen und Fragen dazu zu beantworten. Um diese Einschränkung zu adressieren, führt Koala zwei neue Tokenizer-Funktionen ein:
Durch die Verwendung dieser Tokenizer-Funktionen kann Koala den eingefrorenen Videotokenizer in vortrainierten vLLMs adaptieren, um längere Videos ganzheitlich zu verstehen. Die Autoren zeigen, dass ihr Ansatz die Leistung von Baseline-vLLMs auf Benchmarks für Verständnis langer Videos deutlich verbessert, ohne die Fähigkeiten zum Verständnis kurzer Videos zu beeinträchtigen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Reuben Tan,X... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04346.pdfYêu cầu sâu hơn