Ariza, I., Barbancho, A. M., Tardón, L. J., & Barbancho, I. (2023). Energy-based features and bi-LSTM neural network for EEG-based music and voice classification. Neural Computing and Applications, 35(15), 12441–12452. https://doi.org/10.1007/s00521-023-09061-3
本研究旨在探討基於腦電圖(EEG)信號,利用能量特徵和雙向長短期記憶(bi-LSTM)神經網絡,對音樂與語音進行分類的可行性,並進一步評估其在音樂類型和聽者喜好辨識上的表現。
研究人員設計了兩個實驗,讓受試者分別聆聽不同類型音樂片段和不同語言的句子,同時記錄其腦電圖信號。他們將腦電圖信號分割成試驗片段,並計算每個片段在不同腦區的能量差異,構建特徵矩陣。接著,他們使用這些特徵矩陣訓練一個雙向長短期記憶神經網絡,進行音樂與語音的二元分類、音樂類型的多元分類,以及聽者喜好的二元和多元分類。
研究結果顯示,基於能量特徵和雙向長短期記憶神經網絡的分類方法,在音樂與語音的二元分類中達到了 98.66% 的準確率,表現出色。在音樂類型的多元分類中,準確率為 61.59%,顯示出一定的辨識能力。而在聽者喜好的二元和多元分類中,準確率分別高達 96.96% 和 92.41%,證明該方法能有效辨識聽者的音樂偏好。
本研究證實了基於腦電圖能量特徵和雙向長短期記憶神經網絡,可以有效區分音樂與語音,並進一步辨識音樂類型和聽者喜好。
此研究結果有助於開發基於腦電圖的音樂推薦系統,並為腦機介面在音樂資訊檢索領域的應用提供新的思路。
本研究的受試者數量有限,且音樂類型和語言種類也相對較少。未來研究可以擴大樣本量,並納入更多樣化的音樂和語言刺激,以進一步驗證該方法的穩健性和泛化能力。此外,研究者還可以探討其他腦電圖特徵和深度學習模型,以提升分類性能。
翻譯成其他語言
從原文內容
arxiv.org
深入探究