核心概念
本研究では、大規模な無音声データを用いて事前学習された生成モデル「SpeechFlow」を提案する。SpeechFlowは、様々な音声生成タスクに適用可能で、既存の専門モデルと同等以上の性能を示す。
要約
本研究では、大規模な無音声データを用いて事前学習された生成モデル「SpeechFlow」を提案している。SpeechFlowは、Flow Matchingと部分的にマスクされた音声条件を組み合わせることで、音声の潜在分布を学習する。
事前学習後、SpeechFlowは少量のラベル付きデータでタスク特有の条件を学習することで、音声強調、分離、合成などの様々な音声生成タスクに適用可能である。実験の結果、SpeechFlowは既存の専門モデルと同等以上の性能を示した。
具体的には以下の通り:
音声強調: SpeechFlowは既存の専門モデルと同等以上の性能を示し、特に異分野データでの汎化性が高い
音声分離: SpeechFlowは既存の専門モデルと同等の知的可聴性を示し、波形推定の精度向上により更なる改善が可能
話者適応型音声合成: SpeechFlowは少量のラベル付きデータでも既存の専門モデルを上回る話者適応性を示す
これらの結果から、事前学習された生成モデルが様々な音声生成タスクの基盤となる可能性が示された。今後は、より多様なタスクへの適用や、波形推定の精度向上などが課題として挙げられる。
統計
音声強調:
混合音声のPESQは1.69から2.70に改善された。
混合音声のESTOIは0.78から0.90に改善された。
混合音声のCSIGは3.24から4.05に改善された。
混合音声のCOVLは2.42から3.36に改善された。
音声分離:
2話者混合音声のSI-SDRiは12.55dBから12.41dBを達成した。
2話者混合+雑音音声のSI-SDRiは10.46dBを達成した。
2話者混合音声のESTOIiは0.37を達成した。
話者適応型音声合成:
無音声データ60khで事前学習したSpeechFlowは、960時間の有音声データでのみ学習した場合と同等のWER 2.2%を達成した。
話者類似度(SIM-o)は0.678を達成し、既存の専門モデルを上回った。