本研究は、声変換タスクのための新しいフレームワーク「SAVC」を提案している。ソフトスピーチユニットを入力として使用し、属性エンコーダーを設計することで、内容と韻律の特徴を抽出する。特に、敵対的スタイル拡張を導入し、スピーカー情報を排除する。また、教師モデルによる知識蒸留を用いて、韻律特徴を暗黙的にモデル化する。実験結果から、提案手法は従来手法よりも知性と自然さが向上していることが示された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor