Die Studie präsentiert LoCoNet, ein End-to-End-Lange-Kurz-Kontext-Netzwerk für die aktive Sprechererkennung in Videos. LoCoNet besteht aus drei Hauptkomponenten:
Visuelle und Audio-Encoder: Der visuelle Encoder extrahiert zeitliche visuelle Merkmale der Sprecher, während der Audio-Encoder VGGFrame per-Frame-Audio-Merkmale unter Verwendung von VGGish-Vortrainierung auf AudioSet liefert.
Lange-Kurz-Kontext-Modellierung (LSCM): LSCM kombiniert Langzeit-Intra-Sprecher-Modellierung (LIM) und Kurzzeit-Inter-Sprecher-Modellierung (SIM) in einer verschachtelten Weise. LIM verwendet Selbstaufmerksamkeit für die Modellierung langfristiger Abhängigkeiten innerhalb eines Sprechers und Kreuzaufmerksamkeit für Audio-Visuell-Interaktionen. SIM nutzt Konvolutionsblöcke, um lokale Interaktionsmuster zwischen Sprechern zu erfassen.
Vorhersage: Die kontextualisierten Audio-Visuell-Merkmale werden schließlich verwendet, um die Sprechaktivität des Zielsprechers in jedem Frame vorherzusagen.
LoCoNet erzielt state-of-the-art-Ergebnisse auf mehreren Datensätzen für aktive Sprechererkennung, einschließlich 95,2% mAP auf AVA-ActiveSpeaker, 97,2% mAP auf Talkies und 68,4% mAP auf Ego4D. Insbesondere in herausfordernden Szenarien mit mehreren Sprechern übertrifft LoCoNet die vorherigen Methoden deutlich.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xizi Wang,Fe... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2301.08237.pdfDybere Forespørgsler