Der Artikel beschreibt einen neuartigen Ansatz zur Aktionserkennung in Videos, bei dem die Aufgabe als Bildgenerierungsproblem formuliert wird. Anstatt die üblichen Schritte der Aktionserkennung (Vorschlagsgenerierung, Klassifikation, Zeitpunktvorhersage) separat durchzuführen, erzeugt das vorgeschlagene ADI-Diff-Framework drei Ausgabebilder, die die Startpunkt-, Endpunkt- und Aktionsklassenvorhersagen darstellen.
Um diese Bilder effizient zu generieren, wird ein neuartiger Discrete Action-Detection Diffusion Process entwickelt, der die Eigenschaften der Ausgabebilder (diskrete Wahrscheinlichkeitsverteilungen) besser berücksichtigt als herkömmliche Diffusionsmodelle. Außerdem wird eine Row-Column Transformer-Architektur vorgestellt, um die unterschiedlichen Beziehungsmuster in den Ausgabebildern (zeitliche Abfolge vs. Klassenbeziehungen) effektiv zu modellieren.
Die Experimente zeigen, dass das ADI-Diff-Framework den aktuellen Stand der Technik auf gängigen Benchmarks übertrifft. Die Visualisierungen verdeutlichen, wie der Diffusionsprozess schrittweise hochwertige diskrete Wahrscheinlichkeitsverteilungen für die Aktionsklassen erzeugt.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Lin Geng Foo... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01051.pdfDybere Forespørgsler