本研究では、「EmoKnob」と呼ばれる新しい音声合成フレームワークを提案している。EmoKnobは、事前学習された声質クローニングモデルの潜在表現空間を活用し、わずかなサンプルから任意の感情を抽出し、音声に埋め込むことができる。
具体的には以下の手順で動作する:
この手法により、基本的な感情カテゴリだけでなく、魅力や共感といった複雑な感情も、わずかなサンプルから制御できることを示している。
さらに、テキストの感情記述から感情を抽出し、音声に適用する2つの手法も提案している。1つは合成データベースを利用する手法で、もう1つは大規模言語モデルと検索ベースの手法である。これらにより、感情ラベル付きの音声データセットが不足する中でも、柔軟な感情制御が可能となる。
本研究では、感情制御の有効性を定量的・定性的に評価するための新しい指標も提案している。これらの評価結果から、EmoKnobが既存の音声合成サービスを上回る感情表現力を持つことが示された。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések