HybridVCは、事前学習済みのCVAEをベースとしたモデルである。事前学習済みのスピーカーエンコーダーから得られるスピーカースタイル情報に基づいて、潜在変数zを得る。さらに、テキストエンコーダーを用いて、テキストエンベディングgを最適化し、スピーカースタイル情報と整合させる。これにより、テキストおよび音声プロンプトの両方を活用した柔軟な音声スタイル変換が可能となる。
実験の結果、HybridVCは限られた計算リソースでも効率的な学習が可能であり、音声プロンプトを用いた場合と同等の性能を達成できることが示された。また、テキストプロンプトとの整合性も高いことが確認された。このことから、HybridVCは、ユーザー定義の個人化された音声などの実用的なアプリケーションに適していることが示唆される。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы