Der Artikel beschreibt einen neuartigen Ansatz zur Aktionserkennung in Videos, bei dem die Aufgabe als Bildgenerierungsproblem formuliert wird. Anstatt die üblichen Schritte der Aktionserkennung (Vorschlagsgenerierung, Klassifikation, Zeitpunktvorhersage) separat durchzuführen, erzeugt das vorgeschlagene ADI-Diff-Framework drei Ausgabebilder, die die Startpunkt-, Endpunkt- und Aktionsklassenvorhersagen darstellen.
Um diese Bilder effizient zu generieren, wird ein neuartiger Discrete Action-Detection Diffusion Process entwickelt, der die Eigenschaften der Ausgabebilder (diskrete Wahrscheinlichkeitsverteilungen) besser berücksichtigt als herkömmliche Diffusionsmodelle. Außerdem wird eine Row-Column Transformer-Architektur vorgestellt, um die unterschiedlichen Beziehungsmuster in den Ausgabebildern (zeitliche Abfolge vs. Klassenbeziehungen) effektiv zu modellieren.
Die Experimente zeigen, dass das ADI-Diff-Framework den aktuellen Stand der Technik auf gängigen Benchmarks übertrifft. Die Visualisierungen verdeutlichen, wie der Diffusionsprozess schrittweise hochwertige diskrete Wahrscheinlichkeitsverteilungen für die Aktionsklassen erzeugt.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Lin Geng Foo... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01051.pdfاستفسارات أعمق