Die Studie untersucht, ob man alle räumlich-zeitlichen Tokens in das Sprachmodell (LLM) einspeisen kann, um die Aufgabe der Video-Sequenzmodellierung an das LLM zu delegieren. Überraschenderweise führt dieser einfache Ansatz zu erheblichen Verbesserungen beim Videoverständnis. Darauf aufbauend schlagen die Autoren ST-LLM vor, eine effektive Video-LLM-Baseline mit räumlich-zeitlicher Sequenzmodellierung innerhalb des LLM. Um die Probleme der Überlast und Instabilität durch unkomprimierte Videotokens im LLM anzugehen, entwickeln sie eine dynamische Maskierungsstrategie mit maßgeschneiderten Trainingsziele. Für besonders lange Videos haben sie auch einen globalen-lokalen Eingabemechanismus entworfen, um Effizienz und Effektivität auszubalancieren. Die umfangreichen Experimente belegen die Wirksamkeit des Ansatzes. Durch ein konziseres Modell und eine effizientere Trainingspipeline erzielt ST-LLM neue Spitzenergebnisse auf VideoChatGPT-Bench und MVBench.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Ruyang Liu,C... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00308.pdfTiefere Fragen