Der Artikel beschreibt einen neuartigen Ansatz zur Aktionserkennung in Videos, bei dem die Aufgabe als Bildgenerierungsproblem formuliert wird. Anstatt die üblichen Schritte der Aktionserkennung (Vorschlagsgenerierung, Klassifikation, Zeitpunktvorhersage) separat durchzuführen, erzeugt das vorgeschlagene ADI-Diff-Framework drei Ausgabebilder, die die Startpunkt-, Endpunkt- und Aktionsklassenvorhersagen darstellen.
Um diese Bilder effizient zu generieren, wird ein neuartiger Discrete Action-Detection Diffusion Process entwickelt, der die Eigenschaften der Ausgabebilder (diskrete Wahrscheinlichkeitsverteilungen) besser berücksichtigt als herkömmliche Diffusionsmodelle. Außerdem wird eine Row-Column Transformer-Architektur vorgestellt, um die unterschiedlichen Beziehungsmuster in den Ausgabebildern (zeitliche Abfolge vs. Klassenbeziehungen) effektiv zu modellieren.
Die Experimente zeigen, dass das ADI-Diff-Framework den aktuellen Stand der Technik auf gängigen Benchmarks übertrifft. Die Visualisierungen verdeutlichen, wie der Diffusionsprozess schrittweise hochwertige diskrete Wahrscheinlichkeitsverteilungen für die Aktionsklassen erzeugt.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Lin Geng Foo... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01051.pdfสอบถามเพิ่มเติม