Der Artikel befasst sich mit der Herausforderung der offenen Vokabular-Videoanomaliedetektion (OVVAD), bei der das Ziel ist, sowohl bekannte als auch unbekannte Anomalien in Videos zu erkennen und zu kategorisieren.
Traditionelle Videoanomalieerkennungsansätze sind auf einen geschlossenen Satz von Anomaliekategorien beschränkt und können mit unbekannten Anomalien in der realen Welt nicht umgehen. Der Artikel präsentiert einen neuartigen Ansatz, der auf vortrainierten großen Sprach- und Sichtmodellen aufbaut, um die OVVAD-Aufgabe zu lösen.
Der Ansatz zerlegt die OVVAD-Aufgabe in zwei komplementäre Teilaufgaben: anomalieagnostische Erkennung und kategorienspezifische Klassifizierung. Für die Erkennung werden ein Temporal-Adapter-Modul und ein semantisches Wissensinjektionsmodul entwickelt, um visuelle Signale mit Textinformationen anzureichern. Für die Klassifizierung wird ein neuartiges Anomaliesynthesemodul eingeführt, um potenzielle unbekannte Anomalien zu generieren und das Modell darauf zu feinabstimmen.
Umfangreiche Experimente auf drei weit verbreiteten Benchmarks zeigen, dass der Ansatz den Stand der Technik bei der OVVAD-Aufgabe übertrifft, insbesondere bei der Erkennung und Kategorisierung unbekannter Anomalien.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問