Der Artikel präsentiert einen neuartigen Ansatz, der als "Four-Tiered Prompts" (FTP) bezeichnet wird. Dieser nutzt die komplementären Stärken von ViTs und VLMs, um die Leistung bei der Aktion-Erkennung in Videos zu verbessern.
Der Kern der Idee ist es, die visuellen Kodierungen eines ViTs durch die Ausrichtung mit den Ausgaben eines VLMs zu verbessern. Dafür werden vier Feature-Prozessoren eingeführt, die sich jeweils auf spezifische Aspekte der Aktion in Videos konzentrieren: Aktionskategorie, Aktionskomponenten, Aktionsbeschreibung und Kontextinformationen.
Die VLMs werden nur während des Trainings verwendet, sodass der Inferenzaufwand minimal bleibt. Der Ansatz erzielt konsistent Spitzenleistungen auf verschiedenen Benchmarks für Aktion-Erkennung in Videos, wie Kinetics-400 und Something-Something V2.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hui Lu,Hu Ji... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16128.pdfDeeper Inquiries