Video-Verständnis

Zaloguj się

spostrzeżenie - Video-Verständnis

Vereinheitlichung von Moment-Retrieval und zeitlicher Handlungserkennung in einem Modell

Das UniMD-Modell führt die Aufgaben der zeitlichen Handlungserkennung (TAD) und des Moment-Retrieval (MR) in einem einzigen Modell durch, um die gegenseitigen Vorteile zwischen den beiden Aufgaben zu nutzen.

Erweiterung eines videobasierten Großsprachmodells für das Verständnis von langen Videos

Unser Ansatz Koala erweitert vortrainierte videobasierte Großsprachmodelle, um lange Videos besser zu verstehen, indem er lernbare räumlich-zeitliche Abfragen verwendet, um den globalen Kontext des Videos mit feingranularen Informationen auf Segmentebene zu verbinden.

Offene Welt-Video-Instanzsegmentierung und -Beschriftung: Eine integrierte Methode zur Erkennung, Verfolgung und Beschriftung von bekannten und unbekannten Objekten in Videos

Unser Ansatz OW-VISCap ermöglicht es, Objekte in Videos gleichzeitig zu erkennen, zu segmentieren, zu verfolgen und mit aussagekräftigen objektzentrierten Beschriftungen zu versehen, auch wenn diese Objekte zuvor nicht im Trainingsdatensatz enthalten waren.

Effiziente Bildübertragung für die zeitliche Verankerung von Videos

R2-Tuning ist ein parameter- und speichereffizientes Transferlernframework für die zeitliche Verankerung von Videos, das eine leichtgewichtige Seitenkomponente (R2-Block) erlernt, die rekursiv an die letzten Schichten eines eingefrorenen CLIP-Modells angehängt wird, um räumliche Details adaptiv zu poolen und zeitliche Korrelationen zu verfeinern.

Große Sprachmodelle sind effektive zeitliche Lerner

Große Sprachmodelle können effektiv räumlich-zeitliche Sequenzen modellieren, wenn man alle visuellen Tokens direkt in das Sprachmodell einspeist.

Ein zeitempfindliches multimodales großes Sprachmodell für das Verständnis langer Videos

TimeChat ist ein zeitempfindliches multimodales großes Sprachmodell, das speziell für das Verständnis langer Videos entwickelt wurde. Es verfügt über zwei Schlüsselarchitekturkomponenten: einen zeitstempelorientierten Frame-Encoder, der visuelle Inhalte mit dem Zeitstempel jedes Frames verbindet, und einen gleitenden Video-Q-Former, der eine Videotoken-Sequenz variabler Länge erzeugt, um Videos unterschiedlicher Dauer zu verarbeiten.

Zählen von Wiederholungen in Videos durch Verwendung von Beispielen

Das ESCounts-Modell verwendet Aufmerksamkeitsmechanismen, um visuelle Entsprechungen von Videobeispielen über Wiederholungen hinweg in Zielvideos zu entdecken, um die Anzahl der Wiederholungen genau vorherzusagen.

Textbasierte Resampler für das Verständnis von Langform-Videos

Ein textbasierter Resampler-Modul (TCR) verwendet einen vortrainierten visuellen Encoder und ein großes Sprachmodell, um lange Videosequenzen für eine bestimmte Aufgabe zu verarbeiten. TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einem Texthinweis und stellt sie dem Sprachmodell zur Verfügung, um eine Textantwort zu generieren.

Verbesserung von Video-Transformatoren für das Verständnis von Aktionen durch VLM-unterstütztes Training

Durch die Kombination der Stärken von Vision Transformers (ViTs) und Visual Language Models (VLMs) kann die Leistung bei der Aktion-Erkennung in Videos deutlich verbessert werden.

Effiziente semi-überwachte aktive Erkennung von Videoaktionen

Wir entwickeln einen neuartigen semi-überwachten aktiven Lernansatz, der sowohl gekennzeichnete als auch ungekennzeichnete Daten zusammen mit einer informativen Stichprobenauswahl für die Aktionserkennung nutzt.

O nas

Produkty

Zasoby