Kernekoncepter
言語に依存しない話者複製の新しい取り組みとして、多レベルの注意集約アプローチを導入する。
Resumé
この論文は、言語に依存しない話者複製という新しい試みを探求しています。提案されたモデルが実際に大幅な話者類似性を達成し、ドメイン外(OOD)のケースにも汎化できることが示されています。これは映画吹き替えなど、声の保存が重要なシナリオで有用です。研究では、ECAPA-TDNNスピーカー次元8を使用して言語に依存しない話者表現を抽出するためのマルチレベルの注意集約手法が導入されました。さらに、基本周波数(F0)と音色を使用して異なる話者を区別することが強調されています。提案された方法論は、既存のベースラインモデルと比較的分析を行うことで効果を実証しました。
Statistik
二つ目の注目集約段階でHSV表現だけを使用した場合、基準モデルと比べて改善が見られます。
HSVとHMEまたはHF 0間の相互作用を含む第一レベルの注目集約ではMOSスコアが顕著に向上します。
HF 0からHSVへの初期プロンプトとして使用することで、より高いスピーカ忠実度が得られます。
Citater
"言語に依存しない話者抽出" - Yejin Jeon, Gary Geunbae Lee