本研究では、StyleSinger 2という零距離歌声合成モデルを提案している。主な特徴は以下の通り:
クラスタリングスタイルエンコーダ: クラスタリングベクトル量子化モデルを使用して、スタイル情報を安定かつコンパクトな潜在空間に凝縮する。これにより、後続の予測が容易になる。
スタイルと持続時間言語モデル(S&D-LM): オーディオやテキストプロンプトを使って、スタイル情報と発音持続時間を同時に予測する。これにより、両者の相互利益が得られる。
スタイル適応デコーダ: メル-スタイル適応正規化手法を用いて、メルスペクトログラムを洗練し、詳細な歌声を生成する。
実験の結果、StyleSinger 2は、零距離スタイル転移、多階層スタイル制御、クロスリンガルスタイル転移、スピーチ-歌声スタイル転移などの様々なタスクにおいて、ベースラインモデルを上回る合成品質、歌手類似度、スタイル制御性を示した。
翻譯成其他語言
從原文內容
arxiv.org
深入探究