本研究では、大規模な無音声データを用いて事前学習された生成モデル「SpeechFlow」を提案している。SpeechFlowは、Flow Matchingと部分的にマスクされた音声条件を組み合わせることで、音声の潜在分布を学習する。
事前学習後、SpeechFlowは少量のラベル付きデータでタスク特有の条件を学習することで、音声強調、分離、合成などの様々な音声生成タスクに適用可能である。実験の結果、SpeechFlowは既存の専門モデルと同等以上の性能を示した。
具体的には以下の通り:
これらの結果から、事前学習された生成モデルが様々な音声生成タスクの基盤となる可能性が示された。今後は、より多様なタスクへの適用や、波形推定の精度向上などが課題として挙げられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Alexander H.... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2310.16338.pdfDeeper Inquiries