Der Artikel beschreibt einen neuartigen Ansatz zur Aktionserkennung in Videos, bei dem die Aufgabe als Bildgenerierungsproblem formuliert wird. Anstatt die üblichen Schritte der Aktionserkennung (Vorschlagsgenerierung, Klassifikation, Zeitpunktvorhersage) separat durchzuführen, erzeugt das vorgeschlagene ADI-Diff-Framework drei Ausgabebilder, die die Startpunkt-, Endpunkt- und Aktionsklassenvorhersagen darstellen.
Um diese Bilder effizient zu generieren, wird ein neuartiger Discrete Action-Detection Diffusion Process entwickelt, der die Eigenschaften der Ausgabebilder (diskrete Wahrscheinlichkeitsverteilungen) besser berücksichtigt als herkömmliche Diffusionsmodelle. Außerdem wird eine Row-Column Transformer-Architektur vorgestellt, um die unterschiedlichen Beziehungsmuster in den Ausgabebildern (zeitliche Abfolge vs. Klassenbeziehungen) effektiv zu modellieren.
Die Experimente zeigen, dass das ADI-Diff-Framework den aktuellen Stand der Technik auf gängigen Benchmarks übertrifft. Die Visualisierungen verdeutlichen, wie der Diffusionsprozess schrittweise hochwertige diskrete Wahrscheinlichkeitsverteilungen für die Aktionsklassen erzeugt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lin Geng Foo... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01051.pdfYêu cầu sâu hơn