XLSR-Mamba:二重カラム双方向状態空間モデルを用いたスプーフ攻撃検出
本稿では、音声偽装攻撃を検出するための新しいモデル、XLSR-Mamba を提案する。XLSR-Mamba は、事前学習済み音声表現モデル XLSR と、効率的かつ効果的な特徴抽出を実現する新しい二重カラム双方向 Mamba (DuaBiMamba) アーキテクチャを組み合わせている。DuaBiMamba は、従来の Transformer モデルよりも計算コストを抑えながら、音声信号の長距離依存関係を捉えることができる。ASVspoof 2021 データセットとより困難な In-the-Wild データセットを用いた実験により、XLSR-Mamba は他の最先端モデルよりも優れた性能を示し、特にリアルタイムアプリケーションに適した高速な推論速度を実現した。