自然言語の詳細な説明のみを入力として、内容と様式の両方を正確に制御できる音声生成フレームワークを提案する。
本研究では、大規模な無音声データを用いて事前学習された生成モデル「SpeechFlow」を提案する。SpeechFlowは、様々な音声生成タスクに適用可能で、既存の専門モデルと同等以上の性能を示す。
ビデオデータセットからのテキスト-音声検索用の大規模言語モデル(LLMs)を使用した新しい方法を紹介します。