本論文は、言語モデルベースのゼロショット音声合成の性能を向上させるための手法を提案している。従来の手法は、短い音響プロンプトのみを使用していたため、話者の話し方の特徴を十分に捉えられないという問題があった。
提案手法では、以下の2つの新しい要素を導入している:
話者認識エンコーダ: 複数の発話からなる話者スタイルプロンプトを使用し、話者の発音や抑揚などの話し方の特徴をフォネーム単位で抽出する。
音響デコーダ: 短い音響プロンプトを使用して話者の声質を保持しつつ、話者認識エンコーダから得られた話者スタイル情報を活用して、より自然で話者らしい音声を生成する。
実験の結果、提案手法は従来手法に比べて、自然性と話者類似度の両方で優れた性能を示した。特に、話者スタイルプロンプトの長さを増やすことで、さらなる性能向上が確認された。これは、複数の発話から話者の特徴を詳細に捉えられるためである。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shun Lei,Yix... alle arxiv.org 04-10-2024
https://arxiv.org/pdf/2309.11977.pdfDomande più approfondite