Ein zeitempfindliches multimodales großes Sprachmodell für das Verständnis langer Videos
TimeChat ist ein zeitempfindliches multimodales großes Sprachmodell, das speziell für das Verständnis langer Videos entwickelt wurde. Es verfügt über zwei Schlüsselarchitekturkomponenten: einen zeitstempelorientierten Frame-Encoder, der visuelle Inhalte mit dem Zeitstempel jedes Frames verbindet, und einen gleitenden Video-Q-Former, der eine Videotoken-Sequenz variabler Länge erzeugt, um Videos unterschiedlicher Dauer zu verarbeiten.