核心概念
連続表現を用いたトークン単位潜在拡散モデルを用いることで、従来の離散表現を用いた音声合成モデルに匹敵、あるいは凌駕する品質の音声合成が可能になる。
本論文は、トークン単位潜在拡散を用いた連続音声合成システムSALAD (Speech synthesis with Autoregressive LAtent Diffusion) を提案する。従来の音声合成システムでは、音声や画像などの連続的なモダリティを離散表現に変換するために量子化を用いることが一般的であった。しかし、量子化は再構成品質を低下させ、忠実度の上限を設けてしまう可能性がある。
そこで本研究では、連続表現上で動作する、トークン単位潜在拡散モデルを用いたゼロショットテキスト音声合成システムSALADを提案する。SALADは、画像生成のために提案された表現力豊かな拡散ヘッドを基に構築されており、可変長の出力を生成するように拡張されている。このアプローチでは、文脈情報を提供し、停止条件を決定するために、セマンティックトークンが活用される。SALADは、テキストと音声のアライメントに依存しないため、大規模なデータソースを活用することが容易になり、3秒間の話者プロンプトを使用して、ターゲット話者の音声に基づいて音声を合成することができる。
本論文では、SALADの3つのバリエーションを提案する。
T2A (Text2Acoustic): セマンティックトークンを補助タスクとして使用し、テキストから直接音響特徴量を予測する。
S2A-AR (Semantic2Acoustic Autoregressive): 次トークン予測により、セマンティックトークンから音響特徴量を予測する。
S2A-NAR (Semantic2Acoustic Non-Autoregressive): MaskGITスケジュールを用いて、セマンティックトークンから音響特徴量を予測する。
それぞれの連続的なバリエーションについて、拡散ヘッドをRVQ離散予測ヘッドに置き換えて、離散表現上で動作する比較可能なモデルを学習させている。
実験と結果
提案手法を評価するために、LibriSpeechデータセットを用いて実験を行った。客観評価と主観評価の両方を実施し、音声品質、了解度、話者類似性などの指標を用いて性能を測定した。
その結果、連続モデルと離散モデルの両方が非常に優れており、SALADのT2Aモデルは最高の了解度スコアを達成しながら、主観評価では、音声品質と類似性スコアにおいて、グランドトゥルース音声と同等の評価を得られた。
結論
本研究では、連続表現を用いたトークン単位潜在拡散モデルが、音声合成において有効であることを示した。SALADは、従来の離散モデルに匹敵する性能を達成し、場合によっては凌駕する。
統計
MLSデータセット: 1000万件の10〜20秒の音声サンプル、合計45,000時間
LibriSpeech test-cleanデータセット: 40人の話者による2620件の音声
話者プロンプト: 3秒間
VAE bottleneck dimension (d): 8, 16, 24, 32
RVQ codebooks (q): 4, 8, 12
セマンティックトークン: W2V-BERTの11層目の埋め込みを1024個のセントロイドで量子化
Transformer: 1024次元、4096次元FFN、24層、16ヘッド、ドロップアウト率0.1
Diffusion process: 1000ステップ、β0 = 2e-4、βT = 0.03
Diffusion head: 12層の残差MLPネットワーク
MaskGIT: cosine masking schedule、64推論ステップ