本研究では、音楽生成モデルJukebox and MusicGenの内部表現が音楽理論概念をどの程度エンコードしているかを分析した。
まず、音楽理論の基本概念(テンポ、拍子、音符、音程、スケール、コード、コードプログレッション)を網羅した合成データセットSynTheoryを構築した。このデータセットを用いて、音楽生成モデルの内部表現からこれらの概念を識別できるかどうかをプローブ分類器で評価した。
結果、Jukeboxは全ての概念を高精度で識別できることが分かった。MusicGenのデコーダーLMも概して良好な性能を示したが、モデルサイズによって差があり、小規模モデルが最も優れていた。一方、MusicGenのオーディオコーデックは概念識別が苦手であった。
ハンドクラフト特徴量(メルスペクトログラム、MFCC、クロマ)も一定の性能を示したが、音楽生成モデルの内部表現に及ばなかった。特に、動的な概念(音程、コードプログレッション)の識別では生成モデルが優れていた。
以上より、音楽生成モデルは音楽理論の基本概念を内部的に表現していることが明らかになった。この知見は、より詳細な音楽制御を可能にする新しい手法の開発につながると期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Megan Wei, M... at arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00872.pdfDeeper Inquiries