核心概念
テキストプロンプトに基づいて、ソース音声の特定の声質属性を相対的に変更することを目的とする。
要約
本論文は、テキストプロンプトを使用した声質属性編集という新しいタスクを提案している。このタスクでは、ソース音声とテキストプロンプトを入力として、ソース音声の特定の声質属性を相対的に変更することを目的とする。
提案手法であるVoxEditorは、以下の2つの課題に取り組む:
- テキストプロンプトの不十分さ:テキストプロンプトでは音声の多次元的な特性を十分に捉えることが困難である。そのため、テキストプロンプトと対応する声質属性の関係を効果的に表現する必要がある。
- テキストプロンプトの不正確さ:声質属性は定性的な記述子で表現されるため、特定の声質属性の差異を正確に表現することが難しい。
VoxEditorでは、Residual Memory (ResMem)ブロックとVoice Attribute Degree Prediction (VADP)ブロックを提案し、上記の課題に取り組む。
ResMemブロックは、テキストプロンプトと声質属性の共通特徴空間への写像を実現する。VADPブロックは、特定の声質属性の差異の度合いを予測することで、テキストプロンプトの不正確さに対処する。
さらに、本論文では、VCTK-RVAデータセットを構築し、話者間の声質属性の差異を手動で注釈したデータを提供している。
実験結果から、VoxEditorは声質属性編集タスクにおいて高い性能を発揮し、ソース音声の声質特性を保ちつつ、テキストプロンプトに沿った編集が可能であることが示された。
統計
声質属性の差異が大きい話者ほど、生成音声の声質属性がテキストプロンプトに沿って変化する。
編集度合いαが0.6~0.8の範囲では、生成音声がテキストプロンプトと一致しつつ、ソース音声の声質特性も保たれる。
引用
"テキストプロンプトを使用した音声生成では、音声スタイル(性別、感情、リズムなど)がおおよそ入力テキストプロンプトに合うが、特定の声質属性を細かく制御する能力が欠如している。"
"声質特性は多次元的な知覚空間を持つため、テキストプロンプトでは全ての声質特性を十分に捉えることが困難である。"
"声質属性は定性的な記述子で表現されるため、特定の声質属性の差異を正確に表現することが難しい。"