Core Concepts
Durch die Nutzung von vortrainierten Großsprachmodellen und visuelle-sprachliche Modelle kann eine effiziente Video-Anomalie-Erkennung ohne jegliches Training erreicht werden.
Abstract
Die Studie präsentiert LAVAD, eine neuartige Methode zur trainingsfreien Erkennung von Anomalien in Videos. LAVAD nutzt vortrainierte Großsprachmodelle (LLMs) und visuelle-sprachliche Modelle (VLMs), um Anomalien zu erkennen, ohne dass eine Trainingsphase erforderlich ist.
Der Ansatz besteht aus drei Hauptkomponenten:
Image-Text Caption Cleaning: Durch den Einsatz von VLMs werden die von einem Bildunterschriftenmodell generierten Bildunterschriften bereinigt, um Ungenauigkeiten zu reduzieren.
LLM-basierte Anomalie-Bewertung: Die bereinigten Bildunterschriften werden genutzt, um mit Hilfe eines LLMs eine zeitliche Zusammenfassung der Szene zu erstellen. Basierend darauf schätzt das LLM dann einen Anomalie-Score für jedes Einzelbild.
Video-Text Score Refinement: Die initialen Anomalie-Scores werden weiter verfeinert, indem Scores von semantisch ähnlichen Einzelbildern aggregiert werden, um robustere Anomalie-Bewertungen zu erhalten.
Die Evaluation auf zwei großen Datensätzen für Video-Anomalie-Erkennung zeigt, dass LAVAD die besten Ergebnisse unter allen trainingsfreien Methoden erzielt und sogar an die Leistung überwachter Verfahren heranreicht, ohne jedoch eine Trainingsphase zu benötigen.
Stats
Die Erkennung von Anomalien in Videos ist eine herausfordernde Aufgabe, da Anomalien oft undefiniert und kontextabhängig sind.
Bestehende Methoden zur Video-Anomalie-Erkennung erfordern ein Training auf Basis von Trainingsdaten mit unterschiedlichen Überwachungsgraden, was zu Einschränkungen bei der Generalisierung führen kann.
LAVAD ist der erste trainingsfreie Ansatz zur Video-Anomalie-Erkennung, der vortrainierte Großsprachmodelle und visuelle-sprachliche Modelle nutzt.
Quotes
"Durch die Nutzung von vortrainierten Großsprachmodellen und visuelle-sprachliche Modelle kann eine effiziente Video-Anomalie-Erkennung ohne jegliches Training erreicht werden."
"LAVAD ist der erste trainingsfreie Ansatz zur Video-Anomalie-Erkennung, der vortrainierte Großsprachmodelle und visuelle-sprachliche Modelle nutzt."