核心概念
提案モデルMAIN-VCは、シャムネットワークと相互情報推定器を用いて、効果的に音声表現を分離し、1回話者変換の性能を向上させる。
摘要
本論文では、1回話者変換を実現するためのモデルMAIN-VCを提案している。
- 話者情報学習モジュール(SILM)は、シャムネットワークと時間シャッフルユニットを使用して、話者情報を効果的に抽出する。
- 制約付き相互情報推定器(CMI)は、上限と下限を持つ相互情報の推定を行い、話者情報と内容情報の分離を強化する。
- 提案手法のAPC畳み込みブロックにより、パラメータ数を大幅に削減しつつ、性能を維持する軽量なモデルを実現している。
- 実験結果から、MAIN-VCは1回話者変換タスクにおいて、既存手法と同等以上の性能を示しつつ、軽量化を実現できることが確認された。
統計資料
提案手法MAIN-VCは、既存手法と比べて、パラメータ数を59%削減し、推論時間を33%短縮できる。
MAIN-VCの1回話者変換タスクにおけるMCDは5.42、MOSは3.24、VSSは3.29を達成した。
引述
"提案モデルMAIN-VCは、シャムネットワークと相互情報推定器を用いて、効果的に音声表現を分離し、1回話者変換の性能を向上させる。"
"提案手法のAPC畳み込みブロックにより、パラメータ数を大幅に削減しつつ、性能を維持する軽量なモデルを実現している。"