本研究では、AudioComposerと呼ばれる新しい音声生成フレームワークを提案しています。従来の音声生成モデルは、粗い文章説明しか入力として使えず、詳細な制御が困難でした。AudioComposerは、自然言語の詳細な説明のみを入力として使うことで、内容と様式の両方を正確に制御できます。
具体的には以下の3つの特徴があります:
自動データ生成パイプラインを提案し、時間、ピッチ、エネルギーなどの詳細な情報を含む自然言語説明付きのデータセットを構築しました。これにより、詳細な制御が可能な大規模なデータセットを効率的に作成できます。
自然言語説明のみを入力として使い、追加の条件や複雑な制御ネットワークを必要としません。シンプルで効率的な設計となっています。
フロー型ディフュージョントランスフォーマーを採用し、テキスト表現と音声トークンの関係をクロスアテンションで捉えることで、生成の速度、品質、制御性を向上させています。
実験の結果、AudioComposerは従来手法を大きく上回る性能を示しました。時間、ピッチ、エネルギーの制御精度が高く、自然な音声を生成できることが確認されました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問