Konsep Inti
MaskGCTは、明示的なテキスト音声アラインメント情報や音素レベルの発話時間予測を必要としない、マスク付き生成型コーデックトランスフォーマーを用いた、完全に非自己回帰型の新しいゼロショット音声合成システムである。
Abstrak
MaskGCT: マスク付き生成型コーデックトランスフォーマーを用いたゼロショット音声合成
書誌情報
Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu. (2024). MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer. arXiv preprint arXiv:2409.00750v2 [cs.SD].
研究目的
本研究は、明示的なテキスト音声アラインメント情報や音素レベルの発話時間予測を必要としない、より自然で高品質なゼロショット音声合成システムの開発を目的とする。
方法論
本研究では、マスク付き生成型コーデックトランスフォーマー(MaskGCT)と呼ばれる新しい音声合成システムを提案する。MaskGCTは、二段階のモデルで構成される。第一段階では、テキストから音声自己教師あり学習(SSL)モデルから抽出された意味トークンを予測するテキスト-意味(T2S)モデルを用いる。第二段階では、第一段階で予測された意味トークンを入力として、音声コーデックから抽出された音響トークンを予測する意味-音響(S2A)モデルを用いる。両方のモデルは、マスクアンド予測学習パラダイムを用いて学習される。
主な結果
MaskGCTは、LibriSpeech、SeedTTS test-en、SeedTTS test-zhの3つのベンチマークにおいて、既存のゼロショット音声合成システムと比較して、品質、類似性、明瞭度において同等以上の性能を達成した。
MaskGCTは、生成された音声とプロンプト音声の間で人間レベルの類似性を達成し、LibriSpeech、SeedTTS test-en、SeedTTS test-zhにおいて、それぞれSIM-Oで+0.017、-0.002、+0.027、SMOSで+0.28、+0.32、+0.25の改善を示した。
MaskGCTは、3つのベンチマークすべてにおいてWERの点で同等の明瞭度を達成し、妥当な音声時間範囲内で安定性を示した。これは、生成された音声の多様性と制御可能性を示唆している。
結論
本研究で提案されたMaskGCTは、高品質で自然な音声合成を実現するだけでなく、音声の総時間制御、多言語対応、音声翻訳、音声変換、感情制御、音声コンテンツ編集などの様々なタスクへの拡張性も示した。
意義
MaskGCTは、高品質な音声合成を実現するための新しいアプローチを提供し、音声合成技術の進歩に大きく貢献するものである。また、その拡張性の高さから、様々な分野への応用が期待される。
制限と今後の研究
本研究では、主に英語と中国語の音声データを用いて評価を行った。今後、より多くの言語に対応するために、多言語データセットを用いた学習を行う必要がある。また、音声の感情表現や韻律制御など、より高度な音声合成技術の実現に向けて、さらなる研究が必要である。
Statistik
MaskGCTは、10万時間の自然発話音声データを用いて学習された。
MaskGCTは、LibriSpeech、SeedTTS test-en、SeedTTS test-zhの3つのベンチマークにおいて評価された。
MaskGCTは、SIM-O、WER、FSD、CMOS、SMOSなどの指標を用いて評価された。
MaskGCTは、LibriSpeechにおいてSIM-Oで0.687、WERで2.634、FSDで0.886を達成した。
MaskGCTは、SeedTTS test-enにおいてSIM-Oで0.717、WERで2.623、FSDで0.188を達成した。
MaskGCTは、SeedTTS test-zhにおいてSIM-Oで0.774、WERで2.273、FSDで0.106を達成した。