核心概念
音声と視覚の融合による人物検証の効果的な手法を提案
要約
最近、音声と視覚の融合を利用した人物または身元確認が注目されています。本研究では、音声と視覚モダリティ間の関係を効果的に捉えるために、共同クロスアテンションモデルを再帰的に統合しました。この手法は、音声と視覚モダリティ間の内部および相互モーダル関係を進歩的に洗練された特徴表現でキャプチャすることで、融合パフォーマンスを向上させます。提案手法はVoxceleb1データセットで実験され、内部および相互モーダル関係を効果的に捉えることで有望な改善が示されました。
統計
融合パフォーマンスが向上したことが示されました。
Voxceleb1データセットで広範な実験が行われました。
引用
"A recursive fusion of joint cross-attentional model is introduced to efficiently capture both intra- and inter-modal relationships across faces and voices for person verification."
"The proposed model shows promising improvement in fusion performance by adeptly capturing the intra- and inter-modal relationships across audio and visual modalities."