Die Studie präsentiert LoCoNet, ein End-to-End-Lange-Kurz-Kontext-Netzwerk für die aktive Sprechererkennung in Videos. LoCoNet besteht aus drei Hauptkomponenten:
Visuelle und Audio-Encoder: Der visuelle Encoder extrahiert zeitliche visuelle Merkmale der Sprecher, während der Audio-Encoder VGGFrame per-Frame-Audio-Merkmale unter Verwendung von VGGish-Vortrainierung auf AudioSet liefert.
Lange-Kurz-Kontext-Modellierung (LSCM): LSCM kombiniert Langzeit-Intra-Sprecher-Modellierung (LIM) und Kurzzeit-Inter-Sprecher-Modellierung (SIM) in einer verschachtelten Weise. LIM verwendet Selbstaufmerksamkeit für die Modellierung langfristiger Abhängigkeiten innerhalb eines Sprechers und Kreuzaufmerksamkeit für Audio-Visuell-Interaktionen. SIM nutzt Konvolutionsblöcke, um lokale Interaktionsmuster zwischen Sprechern zu erfassen.
Vorhersage: Die kontextualisierten Audio-Visuell-Merkmale werden schließlich verwendet, um die Sprechaktivität des Zielsprechers in jedem Frame vorherzusagen.
LoCoNet erzielt state-of-the-art-Ergebnisse auf mehreren Datensätzen für aktive Sprechererkennung, einschließlich 95,2% mAP auf AVA-ActiveSpeaker, 97,2% mAP auf Talkies und 68,4% mAP auf Ego4D. Insbesondere in herausfordernden Szenarien mit mehreren Sprechern übertrifft LoCoNet die vorherigen Methoden deutlich.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xizi Wang,Fe... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2301.08237.pdfYêu cầu sâu hơn