Core Concepts
ソフトスピーチユニットを使用し、敵対的スタイル拡張によりスピーカー情報を排除し、内容と韻律を独立して抽出することで、より自然で表現豊かな声変換を実現する。
Abstract
本研究は、声変換タスクのための新しいフレームワーク「SAVC」を提案している。ソフトスピーチユニットを入力として使用し、属性エンコーダーを設計することで、内容と韻律の特徴を抽出する。特に、敵対的スタイル拡張を導入し、スピーカー情報を排除する。また、教師モデルによる知識蒸留を用いて、韻律特徴を暗黙的にモデル化する。実験結果から、提案手法は従来手法よりも知性と自然さが向上していることが示された。
Stats
変換音声の自然性と類似性が従来手法を上回る
未知話者に対しても良好な性能を示す
韻律の一貫性も高い
Quotes
"ソフトスピーチユニットを使用し、敵対的スタイル拡張によりスピーカー情報を排除し、内容と韻律を独立して抽出することで、より自然で表現豊かな声変換を実現する。"
"教師モデルによる知識蒸留を用いて、韻律特徴を暗黙的にモデル化する。"