Conceitos Básicos
CLIP-basierte Video-Lerner zeigen begrenzte Leistung bei der Erkennung von Aktionen in unbekannten Videodomänen.
Resumo
Inhaltsverzeichnis:
Einführung
Verwandte Arbeiten
Die vorgeschlagene XOV-Action-Benchmark
Methodik
Experimente
Ergebnisse
Schlussfolgerung
Highlights:
CLIP-basierte Video-Lerner zeigen begrenzte Leistung in unbekannten Videodomänen.
Die XOV-Action-Benchmark ermöglicht eine umfassende Bewertung.
Die vorgeschlagene Scene-Aware Video-Text Alignment-Methode verbessert die Leistung.
Experimente zeigen die Wirksamkeit der vorgeschlagenen Methode.
Estatísticas
"Die besten geschlossenen ACCs betragen nur 53,89% und 31,48% für dunkle Videos in ARID."
"Die besten offenen ACCs erreichen nur 42,22% auf HMDB."
"Die vorgeschlagene SATA-Methode übertrifft frühere Methoden um 1,69% und 1,45% in Bezug auf die durchschnittliche Gesamtgenauigkeit."
Citações
"Kann CLIP-basierte Video-Lerner effektiv auf unbekannte Testdomänen generalisieren?"
"Die vorgeschlagene Scene-Aware Video-Text Alignment-Methode verbessert die Leistung."