この論文では、感情的な音声変換(EVC)のためのProsody-aware VITS(PAVITS)が提案されています。高品質な音声変換を実現するために、VITSの高音質を活用したエンドツーエンドのEVCアーキテクチャが開発されました。感情的な自然さを向上させるために、異なるスピーチ感情の微妙な抑揚変化をモデル化するために感情記述子が導入されました。また、提供された感情ラベルに基づいてテキストから抑揚特徴を予測する抑揚予測器も導入されました。PAVITSは、他の最先端のEVC手法よりも優れたパフォーマンスを示しています。
この研究では、固定長および可変長アプローチで比較実験が行われ、PAVITSはオリジナルのVITSおよび他の伝統的なボコーダーまたはニューラルボコーダーを使用したモデルよりも常に優れたパフォーマンスを達成しています。客観的MCDと主観的MOSから見ると、PAVITSは両方で競争力のあるパフォーマンスを達成しています。
さらに、ABXテストやスペクトログラムの視覚化結果からも、PAVITSが人間の知覚と非常に近い形で感情的な自然さと精度を持っていることが示されています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tianhua Qi,W... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01494.pdfDeeper Inquiries