Kernkonzepte
AVWWSシステムのパフォーマンス向上に向けたFLCMAモジュールの導入とその効果を示す。
Zusammenfassung
近年、ニューラルネットワークに基づくウェイクワード検出は、清潔なオーディオサンプルで良好な性能を発揮していますが、騒々しい環境では苦戦しています。視覚的な口唇運動情報は複雑な音響シーンに影響されないため、オーディオビジュアルウェイクワード検出(AVWWS)が注目を集めています。本研究では、フレームレベルのクロスモーダルアテンション(FLCMA)という新しいモジュールを提案し、AVWWSシステムのパフォーマンスを向上させます。このモジュールは、同期した口唇運動と音声信号を通じてフレームレベルでマルチモーダル情報を表現するのに役立ちます。我々はエンド・トゥ・エンドのFLCMAに基づくオーディオビジュアルコンフォマーを訓練し、AVWWSタスク用に事前学習された単一モダリティモデルを微調整してパフォーマンスをさらに向上させました。提案されたシステムは、遠隔MISPデータセットで新たな最先端結果(4.57%WWSスコア)を達成しています。
Statistiken
提案されたシステムはMISPデータセットで新たな最先端結果(4.57%WWSスコア)を達成しています。
AV-Transformer(E)およびAV-Conformer(E)は評価セットで99.083%および99.231%のAUC、8.95%および7.77%のWWSを達成しています。
FLCMA based AV-Transformer/Conformerシステムは性能が向上しており、評価セットで99.541% AUCと5.50% WWSを達成しています。
Zitate
"Because visual lip movement information is not affected by acoustic noise and can serve as complementary information to the audio stream, the multi-modal audio-visual systems have become more and more popular in several fields."
"Inspired by which enhance multi-channel speaker diarization and ASR using Channel-Level Cross-Channel Attention (CLCCA) for frame-level correlation modeling of multi-channel speech signals, we propose the Frame-Level Cross-Modal Attention (FLCMA) module."
"Our final system (FLCMA-based AV-Conformer with Pretrain strategy) has a further 17% reduction on WWS score, eventually reaching the WWS of 4.57%."