Core Concepts
Dynamisches Cross-Attention-Modell zur Verbesserung der audiovisuellen Fusion für Personenerkennung.
Stats
Audio und visuelle Modalitäten werden oft als komplementär angesehen.
Das vorgeschlagene DCA-Modell verbessert die Leistung der audiovisuellen Fusion.
Relative Verbesserung von 9,3% für CA und 2,9% für JCA in Bezug auf EER.
Quotes
"Audio und visuelle Modalitäten können starke oder schwache komplementäre Beziehungen aufweisen."
"Das DCA-Modell bietet Flexibilität für schwache komplementäre Beziehungen."