本研究では、音楽生成のデモンストレーションを紹介する。4小節の多重トラックMIDIシーケンスを生成するシステムを開発した。ユーザーインターフェースには、サイドバーと中央のインタラクティブパネルがあり、ユーザーは音楽メタデータを指定して音楽を生成できる。
データ準備では、LakhMIDIデータセットとMetaMIDIデータセットを使用し、REMI+表現に変換した。生成モデルは、オートリグレッシブなTransformerベースで、音楽メタデータを入力条件として使用する。トレーニング時にはランダムにトークンをドロップすることで、ユーザーが全ての条件を入力する必要がなくなり、より柔軟な制御が可能になる。
定量的な評価では、モデルの性能、生成サンプルの類似度、制御性を検証した。ランダムドロップを適用することで、部分的な入力条件でも良好な性能を維持できることが示された。さらに、大規模なモデルを使った主観的な聴取テストでも、提案手法の有効性が確認された。
本研究の貢献は、音楽ナラティブの中心となるモチーフを生成できるシステムを提供したことにある。今後の課題として、生成長さの拡張や局所的な制御の強化が挙げられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問