Die Studie präsentiert LoCoNet, ein End-to-End-Lange-Kurz-Kontext-Netzwerk für die aktive Sprechererkennung in Videos. LoCoNet besteht aus drei Hauptkomponenten:
Visuelle und Audio-Encoder: Der visuelle Encoder extrahiert zeitliche visuelle Merkmale der Sprecher, während der Audio-Encoder VGGFrame per-Frame-Audio-Merkmale unter Verwendung von VGGish-Vortrainierung auf AudioSet liefert.
Lange-Kurz-Kontext-Modellierung (LSCM): LSCM kombiniert Langzeit-Intra-Sprecher-Modellierung (LIM) und Kurzzeit-Inter-Sprecher-Modellierung (SIM) in einer verschachtelten Weise. LIM verwendet Selbstaufmerksamkeit für die Modellierung langfristiger Abhängigkeiten innerhalb eines Sprechers und Kreuzaufmerksamkeit für Audio-Visuell-Interaktionen. SIM nutzt Konvolutionsblöcke, um lokale Interaktionsmuster zwischen Sprechern zu erfassen.
Vorhersage: Die kontextualisierten Audio-Visuell-Merkmale werden schließlich verwendet, um die Sprechaktivität des Zielsprechers in jedem Frame vorherzusagen.
LoCoNet erzielt state-of-the-art-Ergebnisse auf mehreren Datensätzen für aktive Sprechererkennung, einschließlich 95,2% mAP auf AVA-ActiveSpeaker, 97,2% mAP auf Talkies und 68,4% mAP auf Ego4D. Insbesondere in herausfordernden Szenarien mit mehreren Sprechern übertrifft LoCoNet die vorherigen Methoden deutlich.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문