Die Studie präsentiert einen neuartigen Ansatz zur zeitlichen Handlungserkennung (TAL) im Bereich des Wenig-Schritt-Lernens. Der Ansatz adressiert die inhärenten Einschränkungen herkömmlicher Einzelprompt-Lernmethoden, die oft zu Überanpassung führen, da sie nicht über verschiedene Kontexte in Echtzeit-Videos verallgemeinern können.
Um die Vielfalt von Kameraeinstellungen, Hintergründen und Objekten in Videos zu berücksichtigen, schlagen die Autoren ein Multi-Prompt-Lernframework mit optimalem Transport vor. Dieses Design ermöglicht es dem Modell, einen Satz diverser Prompts für jede Aktion zu lernen, um die allgemeinen Merkmale effektiver zu erfassen und die Darstellung zu verteilen, um das Risiko der Überanpassung zu mindern.
Darüber hinaus nutzt der Ansatz die Theorie des optimalen Transports, um diese Prompts effizient an die Aktionsmerkmale anzupassen und eine umfassende Darstellung zu optimieren, die sich an die vielfältige Natur von Videodaten anpasst.
Die Experimente zeigen erhebliche Verbesserungen der Genauigkeit und Robustheit der Handlungserkennung in Wenig-Schritt-Einstellungen auf den Standard-Benchmark-Datensätzen THUMOS-14 und EpicKitchens100, was die Wirksamkeit des Multi-Prompt-Optimal-Transport-Ansatzes bei der Überwindung der Herausforderungen herkömmlicher Wenig-Schritt-TAL-Methoden unterstreicht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Edward Fish,... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.18915.pdfDeeper Inquiries