本研究は、声変換タスクのための新しいフレームワーク「SAVC」を提案している。ソフトスピーチユニットを入力として使用し、属性エンコーダーを設計することで、内容と韻律の特徴を抽出する。特に、敵対的スタイル拡張を導入し、スピーカー情報を排除する。また、教師モデルによる知識蒸留を用いて、韻律特徴を暗黙的にモデル化する。実験結果から、提案手法は従来手法よりも知性と自然さが向上していることが示された。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yimin Deng,J... klokken arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00603.pdfDypere Spørsmål