本研究では、StyleFusion-TTSと呼ばれる新しい音声合成システムを提案している。このシステムは、テキストプロンプトやオーディオリファレンスなどのマルチモーダルな入力を活用し、話者アイデンティティとスタイルを効果的に分離・制御することで、柔軟性と自然性の高い音声合成を実現する。
具体的には以下の3つの主要な特徴がある:
General Style Fusion Encoder (GSF-enc): マルチモーダルな入力から、話者アイデンティティとスタイルを表す分離された埋め込みを生成する汎用的なエンコーダ。
Hierarchical Conformer Two-Branch Style Control Module (HC-TSCM): 話者情報とスタイル情報を階層的に融合し、最適な特徴融合を実現するモジュール。
VITS音声合成モデルとの統合: GSF-encとHC-TSCMを、最先端のVITS音声合成モデルに統合することで、高い自然性と制御性を実現。
実験の結果、提案手法であるStyleFusion-TTSは、話者クローニングとスタイル制御の両方において優れた性能を示し、ゼロショット音声合成分野の発展に寄与することが期待される。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania