Core Concepts
Ein kontext-bewusstes Videoanomalieerkennungsverfahren, das speziell für Szenarien mit langfristigen Videoaufnahmen entwickelt wurde, in denen das Konzept von "normalem" Verhalten stark vom Kontext wie Tageszeit, Wochentag oder Terminplan abhängt.
Abstract
Der Artikel präsentiert einen neuen Ansatz zur kontext-bewussten Videoanomaliedetektion, der speziell für Langzeit-Videoaufnahmen entwickelt wurde. Herkömmliche Videoanomalieerkennungsverfahren sind in der Regel auf kurze, isolierte Benchmark-Videos ausgerichtet und berücksichtigen den Kontext nicht, der in Realwelt-Umgebungen entscheidend für die Definition von "normalem" Verhalten ist.
Der vorgestellte Ansatz, genannt "Trinity", ist ein kontrastives Lernverfahren, das darauf abzielt, Zusammenhänge zwischen Kontext, Erscheinungsbild und Bewegung zu erlernen und diese Ausrichtungsqualität zur Klassifizierung von Videos als normal oder anomal zu verwenden. Trinity ist besonders gut für belebte Szenen geeignet, in denen Einzelpersonen nicht einfach verfolgt werden können und Anomalien aufgrund von Geschwindigkeit, Richtung oder Abwesenheit von Gruppenbewegungen auftreten.
Das Verfahren wird sowohl auf herkömmlichen Benchmarks als auch auf einem neu erhobenen öffentlichen Webcam-Datensatz evaluiert, der mehr als drei Monate Aktivität umfasst. Die Ergebnisse zeigen, dass Trinity in der Lage ist, kontextabhängige Anomalien zu erkennen, die von bisherigen Methoden nicht erfasst werden konnten.
Stats
"Ein Kamerasystem, das eine Szene über Monate oder Jahre hinweg beobachtet, erwartet je nach Tageszeit, Wochentag oder Terminplan unterschiedliches "normales" Verhalten."
"In belebten Szenen ist es schwierig, Einzelpersonen zu verfolgen, und Anomalien zeigen sich eher in Geschwindigkeit, Richtung oder Abwesenheit von Gruppenbewegungen."
Quotes
"Das Konzept von 'normalem' Verhalten hängt entscheidend vom Kontext ab, wie der Tageszeit, dem Wochentag oder dem Terminplan."
"Herkömmliche Videoanomalieerkennungsalgorithmen sind in der Regel auf kurze, isolierte Benchmark-Videos ausgerichtet und verfügen über keine kontextuelle Awareness."