核心概念
本文提出了一種基於脈衝神經網路的音樂學習與生成模型,該模型借鑒了神經科學和心理學的音樂認知機制,並結合西方音樂理論中的音階調式概念,能夠學習和生成具有特定音調風格的多聲部音樂。
摘要
書目資訊
Liang, Q., Zeng, Y., & Tang, M. (2024). MODE-CONDITIONED MUSIC LEARNING AND COMPOSITION: A SPIKING NEURAL NETWORK INSPIRED BY NEUROSCIENCE AND PSYCHOLOGY. arXiv preprint arXiv:2411.14773.
研究目標
本研究旨在開發一種能夠理解和生成具有特定音調風格音樂的計算模型,並探討該模型與人類音樂認知機制之間的關係。
方法
- 本研究提出了一種基於脈衝神經網路 (SNN) 的音樂學習與生成模型,該模型包含兩個主要子系統:音樂理論子系統和序列記憶子系統。
- 音樂理論子系統以階層式結構編碼了西方音樂理論中的音階調式概念,作為先驗知識指導音樂學習。
- 序列記憶子系統則模擬了大腦聽覺皮層和海馬體的功能,用於學習和記憶音樂序列中的音高和時值信息。
- 模型採用突觸創建和脈衝時序依賴可塑性 (STDP) 學習規則,模擬大腦中神經迴路的動態演化過程。
主要發現
- 模型內部的神經元連接結構與音樂心理學中的 Krumhansl-Schmuckler 音調感知模型高度一致,表明該模型能夠有效捕捉人類音樂感知中的音調層級關係。
- 模型能夠根據指定的音階調式和起始音符生成具有相應音調風格的多聲部音樂作品。
- 定量評估結果顯示,生成的音樂作品既具有明確的音調特徵,又具備一定的旋律多樣性和音樂性。
主要結論
- 結合神經科學、心理學和音樂理論的跨學科研究方法,有助於開發更具認知能力和音樂性的音樂人工智能系統。
- 基於脈衝神經網路的模型為模擬人類音樂認知機制提供了一種可行的計算框架。
研究意義
本研究為音樂人工智能領域提供了新的思路和方法,有助於推動音樂學習與生成技術的發展,並為理解人類音樂認知機制提供新的見解。
局限與未來研究方向
- 模型目前僅限於生成四聲部音樂,未來可擴展至更多聲部和更複雜的音樂形式。
- 模型的音樂情感表達能力還有待進一步提升。
- 未來研究可探索將模型應用於音樂分析、音樂教育等領域。
統計資料
模型在 SHTE 數據集上訓練後,大調音階的音高突觸數量 (PSC) 與 Krumhansl-Schmuckler 模型的音高分數之間的餘弦相似度為 0.93,小調音階的平均突觸權重 (PASW) 與 Krumhansl-Schmuckler 模型的音高分數之間的餘弦相似度為 0.92。
模型在巴赫四部和聲數據集上訓練後,小調音階的 PSC 和 PASW 與 Krumhansl-Schmuckler 模型的音高分數之間的餘弦相似度均為 0.94。
生成的音樂樣本的音高數量平均值為 7.70,標準差為 1.27。
生成的音樂樣本的自然音比例平均值為 0.86,標準差為 0.04。
生成的音樂樣本的音域平均值為 9.4 個半音,標準差為 2.2。
生成的音樂樣本的音程平均值為 2.33 個半音,標準差為 0.32。
引述
"However, despite these impressive advancements, the biggest challenge remains: current techniques lack the ability to understand and generate music on a cognitive level."
"This reliance presents a significant limitation: it renders the learning process increasingly complex, diverging significantly from the intuitive and explainable learning and creative processes exhibited by human beings."
"By combining insights from neuroscience, psychology, and music theory with advanced neural network architectures, our research aims to create a system that not only learns and generates music but also bridges the gap between human cognition and artificial intelligence."