Der Artikel stellt einen neuen Ausgangspunkt für die unüberwachte kollaborative Videoanomaliedetektion namens CLAP vor. CLAP kann Anomalien in komplexen Überwachungsvideos in einer vollständig unüberwachten Umgebung ohne Etiketten lokalisieren.
Der Artikel beginnt mit einer Einführung in das Problem der Videoanomaliedetektion und erläutert, wie die Verfügbarkeit großer Videodaten und der Schutz der Privatsphäre bei der Zusammenarbeit zwischen verschiedenen Organisationen eine wichtige Rolle spielen.
Anschließend wird die CLAP-Methode im Detail beschrieben. CLAP besteht aus drei Hauptstufen:
Wissensbasierte Datensegregation: Hier werden Pseudo-Etiketten auf Video- und Segmentebene generiert, indem statistische Merkmale der Videos und ein Hypothesentest verwendet werden.
Akkumulation von Serverwissen: Hier wird ein föderierter Lernansatz verwendet, bei dem die lokalen Modelle der Teilnehmer aggregiert werden, ohne dass Rohdaten ausgetauscht werden müssen.
Lokales Feedback: Hier werden die generierten Pseudo-Etiketten unter Verwendung der vom Modell vorhergesagten Konfidenzwerte verfeinert.
Darüber hinaus werden drei neue Evaluierungsprotokolle vorgestellt, um die Videoanomaliedetektion in verschiedenen Szenarien der Zusammenarbeit und Datenverfügbarkeit zu testen. Die Ergebnisse zeigen, dass CLAP im Vergleich zu bestehenden unüberwachten Methoden bessere Leistungen erbringt und mit dem zentralisierten Training vergleichbare Ergebnisse liefert, ohne die Privatsphäre der Teilnehmer zu beeinträchtigen.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Anas Al-lahh... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00847.pdfสอบถามเพิ่มเติม