Grunnleggende konsepter
離散トークンと言語モデルを活用したターゲットスピーカー抽出ネットワークTSELMを提案する。TSELMは、WavLMの複数の隠れ層からのトークン化、クロスアテンションとLanguage Modelによる分離、そしてスケーラブルなHiFi-GANによる音声再構築を行う。実験の結果、音声品質に優れ、音声明瞭性においても同等の性能を示すことが分かった。
Sammendrag
本研究では、ターゲットスピーカー抽出(TSE)のための新しい手法であるTSELMを提案している。TSELMは以下の3つのステージから構成される:
エンコーディングステージ:
- 参照音声と混合音声をWavLMとKmeansを使ってトークン化する。
- 混合音声の前後に参照音声を連結してから、WavLMエンコーダに入力する。
モデリングステージ:
- アテンションエンベディング機構を使って、複数層のトークンを統合する。
- クロスアテンションを使って、スピーカー固有の情報を注入する。
- エンコーダのみのLanguage Modelと線形分類器を使って、再構築トークンを生成する。
デコーディングステージ:
- 事前学習済みのスケーラブルなHiFi-GANを使って、トークンから音声を再構築する。
実験の結果、TSELMは音声品質の指標であるDNSMOSで優れた性能を示し、音声明瞭性の指標であるdWERでも同等の結果を得ることができた。一方で、離散的な手法と連続的な手法の間にはパフォーマンスギャップが存在することが分かった。今後の課題は、このギャップを縮小することである。
Statistikk
混合音声を参照音声で前後から挟むことで、WavLMがターゲットスピーカーの情報に注目するようになり、性能が大幅に向上した。
複数の隠れ層からのトークンを使うことで、単一層のみを使う場合に比べて、性能が向上した。
離散的な手法と連続的な手法を比較すると、連続的な手法の方が音声明瞭性とスピーカー類似度で優れた結果を示した。
Sitater
"WavLMは、混合音声の長さが参照音声の長さの50%未満で、最初の発話がターゲットスピーカーである場合に最も効果的にターゲットスピーカー分離を行うことができる。"
"トークン化プロセスに固有の情報損失により、離散的な手法の出力とクリーンな音声の間のスピーカー類似度に差が生じる。"