Effiziente Erkennung und präzise Lokalisierung von Aktionen in Mehrfach-Label-Videos
Ein neuartiges Dual-Level-Abfrage-basiertes Modell (DualDETR) wird vorgestellt, das Aktionen sowohl auf Instanz-Ebene als auch auf Grenzwert-Ebene erkennt und lokalisiert, um eine präzisere Erfassung der Aktionsgrenzen zu erreichen.