核心概念
CloserMusicDBは、フック検出、コンテキストタグ付け、アーティスト識別などの音楽情報検索タスクの進歩を促進するために設計された、高品質で著作権準拠の音楽データセットである。
論文情報
Piekarzewicz, A., Sroka, T., Tym, A., & Modrzejewski, M. (2024). CloserMusicDB: A Modern Multipurpose Dataset of High Quality Music. In Extended Abstracts for the Late-Breaking Demo Session of the 25th Int. Society for Music Information Retrieval Conf. (San Francisco, United States).
研究目的
本研究は、既存の音楽データセットの限界に対処するため、高品質で人間が注釈を付けたフルレングスのスタジオトラックのデータセットであるCloserMusicDBを紹介することを目的とする。
データセットの概要
CloserMusicDBは、約5時間のオーディオに相当する106の高品質なフルレングストラックを特徴としている。すべてのトラックは、プロによって録音、制作、ミキシング、マスタリングされている。ファイルは、サンプリングレート44100 Hz、16ビット深度の非圧縮ステレオWAVとして保存されている。メタデータには、WAVファイルの名前、メインアーティストとフィーチャーアーティストの識別子、フックの開始と終了のタイムスタンプ、BPM(1分あたりのビート数)、音楽ハッシュタグのサブセットが含まれている。
データセットの特徴
高品質なオーディオ: すべてのトラックはスタジオ品質で、著作権の問題がない。
専門家による注釈: フックの開始と終了地点、関連するハッシュタグ、アーティストIDなど、人間が注釈を付けたメタデータが含まれている。
多様なタスクへの応用可能性: フック検出、コンテキストタグ付け、アーティスト識別など、さまざまな音楽情報検索タスクに適している。
初期ベンチマーク
本論文では、CloserMusicDBを用いて、フック検出、コンテキストタグ付け、アーティスト識別という3つのタスクについて初期ベンチマークを実施した。
フック検出: MSAFを用いて、Ordinal LDA境界検出アルゴリズムを使用して、注釈付きのフックセグメントを曲の個別のスタンドアロンセクションとして認識することができた。精度は、開始/終了時間の許容範囲が±5秒の場合は41.5%、±3秒の場合は35.8%であった。
コンテキストタグ付けとアーティスト識別: コンテキストタグ付けとアーティスト識別のためのベースライン実験を、[4]と同様の転移学習アプローチを用いて実施した。分類タスクのためにOpenL3[5]埋め込みを抽出した。256melモデルタイプ、512埋め込み長、1秒のホップサイズを使用した。
結論
CloserMusicDBは、フック検出、コンテキストタグ付け、アーティスト識別などの音楽情報検索タスクの進歩を促進するために設計された、高品質で著作権準拠の音楽データセットである。一貫したメタデータと専門家による注釈を提供することで、CloserMusicDBは再現性のある研究をサポートし、学術研究と現実世界の音楽アプリケーションの間のギャップを埋めることを目指している。
統計
CloserMusicDBデータセットは、約5時間のオーディオに相当する106の高品質なフルレングストラックを特徴としている。
データセットには280のユニークな音楽ハッシュタグが含まれている。
フック検出の精度は、開始/終了時間の許容範囲が±5秒の場合は41.5%、±3秒の場合は35.8%であった。
コンテキストタグ付けタスクでは、各ラベルの出現回数で重み付けしたJaccardスコアが0.2998±0.0767、すべてのfoldで平均化したROC AUCが0.6772%±0.0625を達成した。
アーティスト識別タスクでは、すべてのfoldで平均化した精度が60.22%±5.14、F1スコアが0.5141±0.0849を達成した。