Core Concepts
Ein textbasierter Resampler-Modul (TCR) verwendet einen vortrainierten visuellen Encoder und ein großes Sprachmodell, um lange Videosequenzen für eine bestimmte Aufgabe zu verarbeiten. TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einem Texthinweis und stellt sie dem Sprachmodell zur Verfügung, um eine Textantwort zu generieren.
Abstract
Der Artikel präsentiert einen Text-konditionierten Videosampler (TCR), der lange Videosequenzen für verschiedene Aufgaben verarbeiten kann. TCR verwendet einen vortrainierten visuellen Encoder und ein großes Sprachmodell, um relevante visuelle Merkmale aus dem Video basierend auf einem Texthinweis zu extrahieren und dem Sprachmodell zur Verfügung zu stellen, um eine Textantwort zu generieren.
Die Hauptbeiträge sind:
Entwicklung einer transformerbasierte Samplingarchitektur, die lange Videos basierend auf einer Aufgabe verarbeiten kann, zusammen mit einer Trainingsmethode, die es ermöglicht, vorgelernte visuelle und Sprachmodelle zu verbinden.
Identifizierung von Aufgaben, die von einer längeren Videowahrnehmung profitieren könnten.
Empirische Validierung der Effektivität auf einer Vielzahl von Evaluationsaufgaben wie NextQA, EgoSchema und der EGO4D-LTA-Herausforderung.
TCR kann mehr als 100 Frames auf einmal mit einfacher Aufmerksamkeit und ohne optimierte Implementierungen verarbeiten. Dies ermöglicht es, längere Videosequenzen für Aufgaben wie Frage-Antwort, Zeitpunktsuche und Handlungsvorhersage zu nutzen, was zu besseren Ergebnissen führt.
Stats
"TCR kann mehr als 100 Frames auf einmal mit einfacher Aufmerksamkeit und ohne optimierte Implementierungen verarbeiten."
"TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einem Texthinweis."
Quotes
"Ein textbasierter Resampler-Modul (TCR) verwendet einen vortrainierten visuellen Encoder und ein großes Sprachmodell, um lange Videosequenzen für eine bestimmte Aufgabe zu verarbeiten."
"TCR stellt die relevanten visuellen Merkmale dem Sprachmodell zur Verfügung, um eine Textantwort zu generieren."