Core Concepts
音楽生成と分離を同時に行う単一モデルの重要性と可能性を探求
Abstract
ABSTRACT
拡散ベースの生成モデルは、音楽合成とソース分離の両方が可能。
新しい推論手法を導入し、Slakh2100でトレーニングされた結果が競争力のあるものであることを示す。
INTRODUCTION
音楽ドメインでは、複数の個々のソースが混合物を構成するため、他のサブフィールドと異なり、強い相互依存関係がある。
既存のアプローチでは、音源分離または音楽生成タスクを行うためには別々のモデルが必要。
RELATED WORK
オートレグレッシブモデルやGANなど、さまざまな一般的な生成モデルがオーディオ領域で使用されてきた。
音声合成向けに初めて拡散(スコア)ベースの生成モデルが導入された。
BACKGROUND
スコアマッチングフレームワークを使用して事前分布p(x1, ..., xN)を学習する多ソース拡散モデル(MSDM)をトレーニング。
METHOD
MSDMは、全体および部分的な生成タスクおよびソース分離タスクを実行する能力を持つ単一ニューラルネットワークで訓練される。
インファレンス中にタスクが区別される。
EXPERIMENTAL RESULTS
Slakh2100で実験し、MSDMは他の最先端リグレッサーベースラインと比較して優れた結果を示した。
全体的および部分的な生成タスクに対する主観評価および客観評価も行われた。
CONCLUSIONS
MSDMは音楽作曲用途において重要であり、個々のソースを制御しやすくする柔軟性がある。
Stats
マイナー修正:Slakh2100でトレーニングされた結果は競争力あり
Quotes
"人間は複数の音源を同時に処理する能力を開発してきた。"
"我々は単一ニューラルネットワークで両方のタスクを処理する方法"