Das UniMD-Modell führt die Aufgaben der zeitlichen Handlungserkennung (TAD) und des Moment-Retrieval (MR) in einem einzigen Modell durch, um die gegenseitigen Vorteile zwischen den beiden Aufgaben zu nutzen.
Unser Ansatz Koala erweitert vortrainierte videobasierte Großsprachmodelle, um lange Videos besser zu verstehen, indem er lernbare räumlich-zeitliche Abfragen verwendet, um den globalen Kontext des Videos mit feingranularen Informationen auf Segmentebene zu verbinden.
Unser Ansatz OW-VISCap ermöglicht es, Objekte in Videos gleichzeitig zu erkennen, zu segmentieren, zu verfolgen und mit aussagekräftigen objektzentrierten Beschriftungen zu versehen, auch wenn diese Objekte zuvor nicht im Trainingsdatensatz enthalten waren.
R2-Tuning ist ein parameter- und speichereffizientes Transferlernframework für die zeitliche Verankerung von Videos, das eine leichtgewichtige Seitenkomponente (R2-Block) erlernt, die rekursiv an die letzten Schichten eines eingefrorenen CLIP-Modells angehängt wird, um räumliche Details adaptiv zu poolen und zeitliche Korrelationen zu verfeinern.
Große Sprachmodelle können effektiv räumlich-zeitliche Sequenzen modellieren, wenn man alle visuellen Tokens direkt in das Sprachmodell einspeist.
TimeChat ist ein zeitempfindliches multimodales großes Sprachmodell, das speziell für das Verständnis langer Videos entwickelt wurde. Es verfügt über zwei Schlüsselarchitekturkomponenten: einen zeitstempelorientierten Frame-Encoder, der visuelle Inhalte mit dem Zeitstempel jedes Frames verbindet, und einen gleitenden Video-Q-Former, der eine Videotoken-Sequenz variabler Länge erzeugt, um Videos unterschiedlicher Dauer zu verarbeiten.
Das ESCounts-Modell verwendet Aufmerksamkeitsmechanismen, um visuelle Entsprechungen von Videobeispielen über Wiederholungen hinweg in Zielvideos zu entdecken, um die Anzahl der Wiederholungen genau vorherzusagen.
Ein textbasierter Resampler-Modul (TCR) verwendet einen vortrainierten visuellen Encoder und ein großes Sprachmodell, um lange Videosequenzen für eine bestimmte Aufgabe zu verarbeiten. TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einem Texthinweis und stellt sie dem Sprachmodell zur Verfügung, um eine Textantwort zu generieren.
Durch die Kombination der Stärken von Vision Transformers (ViTs) und Visual Language Models (VLMs) kann die Leistung bei der Aktion-Erkennung in Videos deutlich verbessert werden.
Wir entwickeln einen neuartigen semi-überwachten aktiven Lernansatz, der sowohl gekennzeichnete als auch ungekennzeichnete Daten zusammen mit einer informativen Stichprobenauswahl für die Aktionserkennung nutzt.