Ein neuartiger, praktischer und leichtgewichtiger Rahmen, der drei innovative Module kombiniert, um die Herausforderungen im Bereich der auf Skelettdaten basierenden Videoanomaliedetektion effektiv anzugehen: ein grafenbasierter Vorhersage-Modul, ein grafenbasierter Jigsaw-Puzzle-Modul und ein grafenbasiertes bedingte Diffusions-Modul.
VideoAgent, ein neuartiges agentenbasiertes System, verwendet ein großes Sprachmodell als zentralen Agenten, um iterativ entscheidende Informationen zu identifizieren und zusammenzustellen, um eine Frage zu beantworten, wobei Sprachmodelle für Sprache und Bilder als Werkzeuge dienen, um visuelle Informationen zu übersetzen und abzurufen.