本研究では、SelfVCと呼ばれる新しいボイスコンバージョンのフレームワークを提案している。このフレームワークは、自己変換を用いて徐々に精緻化されるシンセサイザーモデルを活用することで、不完全に分離された表現からも高品質なボイスコンバージョンを実現する。
具体的には以下の3つの主要な要素から構成される:
特徴抽出: 音声信号からコンテンツ表現、スピーカー埋め込み、プロソディ情報を抽出する。コンテンツ表現はself-supervised学習モデルから得られ、スピーカー埋め込みはスピーカー認証モデルから得られる。プロソディ情報は基本周波数の抽出と正規化により導出される。
シンセサイザー: 抽出された特徴表現からメルスペクトログラムを再構成するシンセサイザーモデルを設計する。シンセサイザーは、コンテンツ表現とスピーカー埋め込みを入力とし、メルスペクトログラム、ピッチ、継続時間を出力する。
自己変換を用いた反復的な精緻化: シンセサイザーモデルを、ヒューリスティックな変換に加えて、自己変換を用いて訓練する。自己変換では、現在のシンセサイザーモデルを用いて入力コンテンツ表現を変換し、元の音声を再構成するよう学習する。これにより、シンセサイザーの性能が反復的に向上していく。
提案手法は、テキストを必要とせずに、高品質なボイスコンバージョンを実現できる。実験の結果、提案手法は既存手法と比べて、スピーカー類似度、知intelligibility、自然性の全ての指標で優れた性能を示した。さらに、多言語データを用いてファインチューニングすることで、クロスリンガルなボイスコンバージョンにも優れた性能を発揮した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Paarth Neekh... at arxiv.org 05-06-2024
https://arxiv.org/pdf/2310.09653.pdfDeeper Inquiries