本研究は、単一楽器音楽シーケンスのトラック役割を自動的に予測するための深層学習モデルを提案している。トラック役割には、メインメロディ、サブメロディ、パッド、リフ、アコンパニメント、ベースの6つのクラスが考えられる。
入力データとして、記号ドメインと音声ドメインの両方を検討した。記号ドメインのデータでは、MusicBERTモデルを微調整することで高精度な予測が可能であった。一方、音声ドメインでは、PANNsモデルを微調整することで良好な結果が得られた。
実験の結果、記号ドメインのモデルが音声ドメインのモデルを上回る精度を示した。最良のモデルは、微調整したMusicBERTベースモデルで、87%の精度を達成した。一方、音声ドメインでは、注意機構付きのPANNsモデルが84%の精度を示した。
モデルの混同行列分析から、メインメロディとサブメロディの区別が最も困難であることが明らかになった。また、リフがアコンパニメントやメインメロディと誤分類される傾向も見られた。今後の課題として、多様な音楽構造に対応できるよう、カリキュラム学習などの手法を検討する必要がある。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문