核心概念
Ein neuro-symbolischer Ansatz, der semantisches Verständnis einzelner Frames mit temporaler Logik-Analyse kombiniert, um präzise Szenen in langen Videosequenzen zu identifizieren.
摘要
Der Artikel präsentiert einen neuen Ansatz namens NSVS-TL (Neuro-Symbolic Video Search with Temporal Logic) zur effizienten Identifizierung komplexer Ereignisse in langen Videosequenzen.
Kernelemente:
- Verwendung von Wahrnehmungsmodellen auf Basis neuronaler Netze zur semantischen Analyse einzelner Frames
- Konstruktion eines probabilistischen Automaten, der die zeitliche Entwicklung der Ereignisse modelliert
- Formale Verifikation des Automaten anhand temporaler Logik-Spezifikationen, um relevante Szenen zu identifizieren
Vorteile gegenüber bestehenden Methoden:
- Präzise Lokalisierung von Szenen auch in langen Videos, unabhängig von deren Länge oder Komplexität der Anfrage
- Formale Garantien durch Verwendung temporaler Logik
- Flexibilität durch Integration verschiedener neuronaler Wahrnehmungsmodelle
Das Verfahren wird auf synthetischen und realen Datensätzen evaluiert, die speziell für die Bewertung temporaler Logik-Anfragen entwickelt wurden (TLV-Datensätze).
統計資料
Es gibt 500 Stunden Videomaterial, das jede Minute auf YouTube hochgeladen wird.
Autonome Fahrzeugfirmen wie Waymo erzeugen täglich 10-100 TB Daten.
Weltweit zeichnen Sicherheitskameras etwa 500 PB pro Tag auf.
引述
"Überraschenderweise stellen wir fest, dass die heutigen State-of-the-Art-Video- und Sprach-Grundmodelle bei der Identifizierung komplexer Ereignisse versagen, insbesondere wenn Schlüsselbilder in einem Video selten sind oder die Eingabeanfrage komplex ist."
"Unser Schlüsseleinblick ist, dass diese Grundmodelle die semantischen Informationen pro Frame in einen latenten Vektor aggregieren, aus dem eine präzise Szenenerkennung, insbesondere über lange Videos hinweg, schwierig ist."