Core Concepts
HybridVCは、事前学習済みのCVAEをベースとしたモデルで、テキストおよび音声プロンプトを組み合わせることで、柔軟な音声スタイル変換を実現する。また、効率的な学習を可能にする。
Abstract
HybridVCは、事前学習済みのCVAEをベースとしたモデルである。事前学習済みのスピーカーエンコーダーから得られるスピーカースタイル情報に基づいて、潜在変数zを得る。さらに、テキストエンコーダーを用いて、テキストエンベディングgを最適化し、スピーカースタイル情報と整合させる。これにより、テキストおよび音声プロンプトの両方を活用した柔軟な音声スタイル変換が可能となる。
実験の結果、HybridVCは限られた計算リソースでも効率的な学習が可能であり、音声プロンプトを用いた場合と同等の性能を達成できることが示された。また、テキストプロンプトとの整合性も高いことが確認された。このことから、HybridVCは、ユーザー定義の個人化された音声などの実用的なアプリケーションに適していることが示唆される。
Stats
音声変換後の単語誤り率(WER)は17.54%
音声変換後の文字誤り率(CER)は6.17%
基本周波数の相関係数(F0-PCC)は0.712
構造的類似度(SSIM)は0.775
音声品質・自然性評価(NISQA)は4.52