Die Autoren konzentrieren sich auf ein effizientes Lernen für die Erkennung von Videoaktionen. Sie entwickeln einen neuartigen semi-überwachten aktiven Lernansatz, der sowohl gekennzeichnete als auch ungekennzeichnete Daten zusammen mit einer informativen Stichprobenauswahl für die Aktionserkennung nutzt.
Zunächst schlagen sie NoiseAug vor, eine einfache Augmentierungsstrategie, die effektiv informative Stichproben für die Erkennung von Videoaktionen auswählt. Anschließend führen sie fft-attention ein, eine neuartige Technik auf der Grundlage von Hochpassfilterung, die eine effektive Nutzung von Pseudobeschriftungen für SSL in der Erkennung von Videoaktionen ermöglicht, indem sie den relevanten Aktivitätsbereich innerhalb eines Videos betont.
Sie evaluieren den vorgeschlagenen Ansatz auf drei verschiedenen Benchmark-Datensätzen, UCF-101-24, JHMDB-21 und Youtube-VOS. Zunächst zeigen sie seine Wirksamkeit bei der Erkennung von Videoaktionen, wo der vorgeschlagene Ansatz frühere Arbeiten in semi-überwachtem und schwach überwachtem Lernen sowie mehrere Basisansätze sowohl in UCF101-24 als auch in JHMDB-21 übertrifft. Anschließend zeigen sie auch seine Wirksamkeit auf Youtube-VOS für die Videoobjektsegmentierung, was seine Verallgemeinerungsfähigkeit für andere dichte Vorhersageaufgaben in Videos demonstriert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ayush Singh,... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.07169.pdfDomande più approfondite