本論文は、メロディーを利用して音楽を生成する新しい手法を提案している。具体的には以下の通りである:
メロディー、音声波形、テキスト記述の3つのモダリティを同時に学習する多モーダル整列モジュールを提案した。これにより、3つのモダリティ間の意味的な関係を学習できる。
整列されたメロディー表現を活用し、メロディーを条件として与えることで、生成された音楽が調和のとれたものになるようにした。
新しい評価指標である「交差率」を提案し、検索アルゴリズムの性能を評価した。この指標は生成性能を予測する上で有効であることを示した。
100,000以上の高品質な音楽サンプルを含む新しいデータセット「MusicSet」を構築し、公開した。
実験の結果、提案手法は既存手法と比べて少ないデータ量で優れた性能を示すことができた。これは、メロディーを利用することで、より調和の取れた音楽を生成できるためだと考えられる。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询