ニューラルオーディオコーデックの出現により、大規模言語モデルがゼロショット音声合成の有望なアプローチとなっている。本研究では、トークン長の圧縮と複数トークンの一度の生成を可能にするプロバビリスティックな残差ベクトル量子化を提案し、効率的な言語モデリングを実現する。
言語モデルベースのゼロショット音声合成において、話者の声質と話し方の特徴を同時に捉えるため、複数の発話からなる話者スタイルプロンプトと短い音響プロンプトを組み合わせることで、自然性と話者類似度を向上させることができる。
StyleTTS-ZSは、時変スタイル拡散を利用することで、効率的かつ高品質なゼロショット音声合成を実現する。
マルチモーダルな入力(テキストプロンプト、オーディオリファレンス、話者ティンバーリファレンス)を活用し、話者アイデンティティとスタイルを効果的に分離・制御することで、柔軟性と自然性の高い音声合成を実現する。
限られた学習データ量でも、ゼロショット音声合成において従来のデータ駆動型アプローチに匹敵する性能を達成できる、効率的かつ表現力豊かなゼロショット多言語マルチタスク音声合成システム「MultiVerse」を提案する。
MaskGCTは、明示的なテキスト音声アラインメント情報や音素レベルの発話時間予測を必要としない、マスク付き生成型コーデックトランスフォーマーを用いた、完全に非自己回帰型の新しいゼロショット音声合成システムである。
本稿では、単一話者の音声データを用いて学習可能な、軽量かつ効率的なゼロショットマルチスピーカーTTSフレームワーク「SSL-TTS」を提案する。