Die Studie untersucht, ob man alle räumlich-zeitlichen Tokens in das Sprachmodell (LLM) einspeisen kann, um die Aufgabe der Video-Sequenzmodellierung an das LLM zu delegieren. Überraschenderweise führt dieser einfache Ansatz zu erheblichen Verbesserungen beim Videoverständnis. Darauf aufbauend schlagen die Autoren ST-LLM vor, eine effektive Video-LLM-Baseline mit räumlich-zeitlicher Sequenzmodellierung innerhalb des LLM. Um die Probleme der Überlast und Instabilität durch unkomprimierte Videotokens im LLM anzugehen, entwickeln sie eine dynamische Maskierungsstrategie mit maßgeschneiderten Trainingsziele. Für besonders lange Videos haben sie auch einen globalen-lokalen Eingabemechanismus entworfen, um Effizienz und Effektivität auszubalancieren. Die umfangreichen Experimente belegen die Wirksamkeit des Ansatzes. Durch ein konziseres Modell und eine effizientere Trainingspipeline erzielt ST-LLM neue Spitzenergebnisse auf VideoChatGPT-Bench und MVBench.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ruyang Liu,C... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00308.pdfYêu cầu sâu hơn