本研究では、潜在ディフューション・モデルに基づく多トラック音楽生成モデル「MSG-LD」を提案している。このモデルは、音源分離、全トラック生成、アレンジメント生成の3つのタスクを同時に実現できる。
音源分離では、入力された音楽ミックスを個別のトラックに分離する。全トラック生成では、新しい楽曲を無条件に生成する。アレンジメント生成では、一部のトラックが与えられた状態で、残りのトラックを生成する。
モデルの設計では、MusicLDMをベースとし、3次元のU-Netアーキテクチャを採用することで、トラック数に対応した潜在表現を学習できるようにした。また、Classifier-Free Guidanceを用いて、分離と生成のトレードオフを柔軟に制御できるようにしている。
実験の結果、提案モデルはベースラインと比べて、全てのタスクにおいて大幅な性能向上を示した。特に、音源分離ではSI-SDRとMSEの指標で、音楽生成ではFADの指標で大きな改善が見られた。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Tornike Karc... a las arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12346.pdfConsultas más profundas