Core Concepts
視聴覚情報を相互に条件として利用することで、音声知覚と音声生成の2段階プロセスを通じて、音声分離タスクにおけるモダリティ不均衡の問題を解決する。
Abstract
本研究は、音声分離タスクにおけるモダリティ不均衡の問題に取り組むため、音声知覚と音声生成の2段階プロセスからなる新しい手法「AVSepChain」を提案している。
音声知覚段階では、音声を主要モダリティ、視覚情報を条件モダリティとして利用し、ターゲット話者の音声を抽出する。一方、音声生成段階では、視覚情報を主要モダリティ、抽出された音声を条件モダリティとして利用し、残差信号を予測することで最終的な音声を生成する。
このように、2つの段階でモダリティの優位性を入れ替えることで、モダリティ不均衡の問題を解決している。さらに、生成された音声と口唇運動の意味的整合性を確保するため、対照的意味マッチングロスを導入している。
実験の結果、提案手法が複数のベンチマークデータセットにおいて、従来手法を大きく上回る性能を示すことが確認された。特に、知覚品質(PESQ)とASR精度(WER)の指標で顕著な改善が見られた。
Stats
抽出された音声とターゲット音声のスケール不変信号対雑音比(SI-SNRi)は15.3 dB
抽出された音声とターゲット音声の信号対雑音比改善(SDRi)は15.7 dB
抽出された音声の知覚品質(PESQ)は3.26
抽出された音声のASR精度(WER)は20.2%
Quotes
"視聴覚情報の統合は、ターゲット音声抽出タスクの性能を向上させ、この分野の最前線に押し上げてきた。"
"しかし、このマルチモーダル学習パラダイムは、モダリティ不均衡の課題に直面することが多い。"
"我々のアプローチでは、音声知覚と音声生成の2つの段階に分割することで、このモダリティ不均衡の問題に取り組む。"