最近、音声と視覚の融合を利用した人物または身元確認が注目されています。本研究では、音声と視覚モダリティ間の関係を効果的に捉えるために、共同クロスアテンションモデルを再帰的に統合しました。この手法は、音声と視覚モダリティ間の内部および相互モーダル関係を進歩的に洗練された特徴表現でキャプチャすることで、融合パフォーマンスを向上させます。提案手法はVoxceleb1データセットで実験され、内部および相互モーダル関係を効果的に捉えることで有望な改善が示されました。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by R. Gnana Pra... às arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04654.pdfPerguntas Mais Profundas