Core Concepts
Unser ExACT-Rahmenwerk nutzt Sprache als Anleitung, um semantische Unsicherheiten zu schätzen und komplexe semantische Beziehungen für ereignisbasierte Handlungserkennung aufzubauen.
Abstract
Der Artikel stellt den ExACT-Rahmenwerk vor, der erstmals Sprache als Anleitung für ereignisbasierte Handlungserkennung nutzt.
Zunächst wird eine adaptive, feingranulare Ereignisdarstellung (AFE) vorgestellt, die wiederkehrende Ereignisse für stationäre Objekte herausfiltert und dynamische Ereignisse beibehält, um die Leistung zu verbessern, ohne zusätzlichen Rechenaufwand zu verursachen.
Dann wird ein Modul für konzeptbasiertes Schlussfolgern und Unsicherheitsschätzung (CRUE) eingeführt, um den Erkennungsprozess von Menschen nachzuahmen. CRUE nutzt Texteinbettungen, um die zeitlichen Beziehungen zwischen Ereignisrahmen zu etablieren und die semantische Unsicherheit von Handlungen basierend auf der Verteilungsdarstellung zu schätzen.
Darüber hinaus wird der SeAct-Datensatz vorgestellt, der der erste Datensatz für ereignisbasierte Handlungserkennung mit semantisch-reichen Bildunterschriften ist. Umfangreiche Experimente zeigen, dass ExACT die Leistung auf öffentlichen Datensätzen wie PAF und HARDVS deutlich übertrifft und auch auf dem eigenen SeAct-Datensatz gute Ergebnisse erzielt.
Stats
Die durchschnittliche Dauer von Objekten beträgt etwa 0,1 Sekunden, während dynamische Handlungen etwa 5 Sekunden dauern.
Objektereignisse haben eine begrenzte Semantik, während Handlungsereignisse eine komplexe und mehrdeutige Semantik aufweisen.
Quotes
"Ereigniskameras haben sich kürzlich als vorteilhaft für praktische Sichtaufgaben wie die Handlungserkennung erwiesen, dank ihrer hohen zeitlichen Auflösung, Energieeffizienz und geringeren Datenschutzbedenken."
"Sprache vermittelt natürlicherweise eine reichhaltige Semantik, was für die Modellierung semantischer Unsicherheit und die Herstellung komplexer semantischer Beziehungen von Vorteil sein kann."