本論文では、Takin-VCと呼ばれる新しいゼロショットボイスコンバージョンフレームワークを提案する。Takin-VCは以下の3つの主要な特徴を備えている:
言語コンテンツエンコーダ: 事前学習済みのHybridFormerとWavLMモデルから抽出したPPGとSSL特徴を融合し、言語コンテンツを精度良く抽出する。さらにニューラルコーデック学習を用いて、コンテンツ表現の質を向上させる。
コンテキスト対応音色モデリング: 事前学習済み話者認証モデルから抽出した話者ボイスプリントと、言語コンテンツ特徴を組み合わせたクロスアテンションメカニズムを用いて、言語コンテンツに関連付けられた高品質な音色特徴を学習する。
メモリ拡張モジュール: 参照音声のメル・スペクトログラムと話者ボイスプリントを統合し、条件付き流れ照合モデルの入力として高品質な音色特徴を生成する。
これらの技術的な特徴により、Takin-VCは従来のゼロショットボイスコンバージョンシステムを大幅に改善し、話者類似度と自然性の両面で優れた性能を発揮することが実験的に示された。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yuguang Yang... um arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01350.pdfTiefere Fragen