Textbasierte Resampler für das Verständnis von Langform-Videos
Ein textbasierter Resampler-Modul (TCR) verwendet einen vortrainierten visuellen Encoder und ein großes Sprachmodell, um lange Videosequenzen für eine bestimmte Aufgabe zu verarbeiten. TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einem Texthinweis und stellt sie dem Sprachmodell zur Verfügung, um eine Textantwort zu generieren.