المفاهيم الأساسية
本文提出了一種利用語音活動、音樂結構分析和零樣本音頻分類技術,從個人音樂收藏中自動檢索 DJ 工具的方法。
الملخص
論文概述
本篇論文為 ISMIR 2024 音樂資訊檢索會議的 Late-Breaking Demo Session 論文,題目為「基於語音活動、音樂結構和 CLAP 嵌入的零樣本 DJ 工具檢索」。
研究背景
在嘻哈、電子音樂等類型中,DJ 工具是 DJ 用於提升音樂表演和創意混音的特殊音頻文件。傳統上,DJ 們會花費大量時間在唱片行中尋找合適的音樂片段,這個過程被稱為「唱片挖掘」。
研究目標
本研究旨在開發一種自動化系統,利用音樂資訊檢索技術,從個人音樂收藏中檢索 DJ 工具,以節省 DJ 的時間和精力。
研究方法
該系統結合了三種主要技術:
- 音樂結構分析 (MSAF):用於識別音樂中的結構邊界,例如段落、副歌等。
- 語音活動檢測 (SMAD):用於精確定位音樂片段中的語音和音樂部分。
- 對比語言-音頻預訓練模型 (CLAP):用於對音頻片段進行零樣本分類,識別其屬於哪種類型的 DJ 工具。
系統流程
- 使用 MSAF 和 SMAD 分析音樂檔案,生成音樂結構邊界和語音活動時間戳。
- 根據時間戳切割音樂檔案,生成多個片段。
- 使用 CLAP 模型對每個片段進行分類,預測其屬於哪種類型的 DJ 工具。
實驗結果
初步評估結果顯示,該系統在識別人聲和打擊樂工具方面表現良好,但在識別較短的音效和特定類型音樂工具方面仍有提升空間。
研究貢獻
本研究提出了一種基於音樂資訊檢索技術的 DJ 工具自動檢索方法,為 DJ 和音樂製作人提供了一種新的工具。
未來方向
- 提高邊界檢測算法的準確性。
- 評估其他音樂結構分析方法。
- 建立標註數據集,以支持更深入的研究。
الإحصائيات
DJ 工具的典型時長在音樂動機或樂句級別,比單個音符或節拍長,但比整段主歌或副歌短。
對於只包含一種元素的 DJ 工具(例如只有鼓點或人聲),即使片段很短,預測結果也很穩定。
對於包含多種元素的 DJ 工具,預測結果更容易受到局部特徵和變化的影響。
اقتباسات
"DJ tools naturally occur at moments in a song where there is a transition to a simpler, less-dense mix."
"For best results, the classes should not overlap in their description, but can contain mixed elements."