Główne pojęcia
プロフェッショナルな歌声の音程と表現力を活用して、アマチュアの歌声を美化する新しいシステムを提案する。
Streszczenie
本論文は、歌声の美化(Singing Voice Beautifying)という新しい課題に取り組んでいる。歌声の美化とは、歌声の音程を修正し、表現力を向上させることで、歌声の質を高めることを目的とする。
提案手法の概要は以下の通り:
- 歌声の音程を修正するために、MIDI情報とスペクトルエンベロープから歌声の音程を予測する手法を開発した。
- 歌声の表現力を向上させるために、表現力を表す潜在表現を抽出し、プロフェッショナルな表現力に変換する手法を提案した。
- 生成モデルの一種であるDiffusion Modelをベースに、音程と表現力の条件を組み込むことで、高品質な美化された歌声を生成することができる。
- 提案手法は、プロフェッショナルな歌声とアマチュアの歌声のペアデータを必要としない点が特徴的である。
- 実験の結果、提案手法は音質、表現力ともに優れた歌声を生成できることが示された。
Statystyki
提案手法のピッチ修正精度は従来手法を上回っている。
提案手法の音質MOS(4.21)は、アマチュアの歌声(4.31)に近い値を達成している。
提案手法の表現力MOS(4.24)は、プロフェッショナルの歌声(4.39)に近い値を達成している。
Cytaty
"歌声の美化は、歌声の音程を修正し、表現力を向上させることで、歌声の質を高めることを目的とする新しい課題である。"
"提案手法は、プロフェッショナルな歌声とアマチュアの歌声のペアデータを必要としない点が特徴的である。"