Core Concepts
本研究では、対照学習に基づく新しい音声合成アプローチを提案し、話者間で様々なスタイルや感情を転移できる表現豊かな音声合成システムを構築する。
Abstract
本研究は、表現豊かな多話者音声合成を実現するために、対照学習に基づく新しいアプローチを提案している。
具体的には以下の取り組みを行っている:
発話レベルとカテゴリーレベルで、正例と負例のサンプルペアを構築し、対照学習を用いて、スタイル、感情、話者の表現を効果的に抽出する。
感情ラベル付きデータ、スタイルラベル付きデータ、および無ラベルデータを効果的に活用するための半教師あり学習戦略を導入する。
抽出した表現を改良したVITSモデルに統合し、目標話者に対して多様なスタイルと感情の表現豊かな音声を合成できるようにする。
実験結果から、提案手法が自然性、感情類似度、話者類似度、スタイル類似度の全ての指標で優れた性能を示すことが確認できた。また、客観評価指標でも高い精度を達成しており、提案手法の有効性が示された。
Stats
提案手法は、従来手法と比べて、キャラクター誤り率(CER)が6.8%から3.9%に、単語誤り率(WER)が9.7%から2.7%に大幅に改善された。
提案手法は、話者コサイン類似度が0.896と最も高い値を示した。
Quotes
"本研究では、対照学習に基づく新しい音声合成アプローチを提案し、話者間で様々なスタイルや感情を転移できる表現豊かな音声合成システムを構築する。"
"実験結果から、提案手法が自然性、感情類似度、話者類似度、スタイル類似度の全ての指標で優れた性能を示すことが確認できた。"