TimeChat ist ein zeitempfindliches multimodales großes Sprachmodell, das speziell für das Verständnis langer Videos entwickelt wurde. Es verfügt über zwei Schlüsselarchitekturkomponenten:
Zeitstempelorientierter Frame-Encoder: Dieser Encoder verbindet die visuellen Inhalte jedes Frames mit dem zugehörigen Zeitstempel, um eine explizite Verbindung zwischen Bild und Zeit herzustellen.
Gleitender Video-Q-Former: Dieser Modul erzeugt eine Videotoken-Sequenz variabler Länge, um Videos unterschiedlicher Dauer verarbeiten zu können. Im Gegensatz zu früheren Modellen, die eine feste Anzahl von Videotokens verwenden, passt der gleitende Video-Q-Former die Kompressionsrate dynamisch an die Länge des Videos an.
Zusätzlich wurde ein Datensatz für zeitempfindliches Instruktions-Finetuning (TimeIT) erstellt, der 6 Aufgaben und insgesamt 125.000 Beispiele umfasst. Damit soll die Fähigkeit von TimeChat, Anweisungen zu befolgen, weiter verbessert werden.
Die Experimente zeigen, dass TimeChat in verschiedenen Videoanalyseaufgaben wie dichter Videobeschriftung, zeitlicher Verankerung und Highlight-Erkennung deutlich bessere Leistungen erbringt als bisherige Video-Sprachmodelle. Beispielsweise erreicht es auf YouCook2 einen um 9,2 Punkte höheren F1-Wert und 2,8 Punkte mehr CIDEr, auf QVHighlights einen um 5,8 Punkte höheren HIT@1-Wert und auf Charades-STA einen um 27,5 Punkte höheren R@1-Wert (IoU=0,5). Dies zeigt das Potenzial von TimeChat als vielseitiger Video-Assistent für Aufgaben zum Verständnis langer Videos.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor