Khái niệm cốt lõi
인간의 음악 인지 과정을 모방한 스파이킹 신경망 모델을 통해 다양한 음악 모드와 조성을 이해하고 새로운 음악을 생성할 수 있다.
Tóm tắt
스파이킹 신경망 기반 음악 생성 모델 연구
본 논문은 신경과학 및 심리학 연구에서 영감을 받아, 서양 음악 이론을 학습하고 새로운 음악을 생성할 수 있는 스파이킹 신경망(SNN) 모델을 제시한다.
연구 배경
인공지능 분야, 특히 딥러닝 기술의 발전은 음악 학습 및 생성 분야에서 놀라운 성과를 이끌어냈다. 그러나 기존의 딥러닝 모델은 방대한 데이터셋과 복잡한 구축 과정에 의존하여 인간의 직관적이고 설명 가능한 학습 및 창작 과정과는 큰 차이를 보인다. 이러한 한계를 극복하기 위해 본 연구에서는 인간 뇌의 메커니즘을 모방한 SNN 모델을 제시하여 음악적 이해와 창조적 생성의 심층적인 측면을 탐구한다.
모델 구축 및 학습
제안된 모델은 음악 이론 하위 시스템(MTS)과 순차적 기억 하위 시스템(SMS)으로 구성된다. MTS는 음악적 사전 지식으로서 모드와 코드를 저장하고, SMS는 음표의 순서와 시간적 관계를 학습하고 저장한다.
모델 학습에는 Sposobin의 화성학 교과서 연습문제(SHTE) 데이터셋과 J.S. 바흐의 4성부 코랄(Bach) 데이터셋을 활용하였다. SHTE 데이터셋은 음악 이론적 특징을 심도 있게 학습하기 위해 사용되었으며, Bach 데이터셋은 다양한 음악적 작품에 대한 학습을 제공한다.
실험 결과 및 분석
모델 평가는 KS 모델과의 비교 분석 및 생성된 음악의 정량적 평가를 통해 이루어졌다.
- KS 모델과의 비교: 모델 내부의 연결 구조를 분석한 결과, 제안된 모델의 연결 구조는 음악 심리학 분야에서 중요한 KS 모델과 유사한 패턴을 보였다. 이는 제안된 모델이 인간의 조성 지각 방식과 유사한 방식으로 음악 정보를 처리함을 시사한다.
- 생성된 음악의 정량적 평가: 생성된 음악 샘플에 대한 분석 결과, 제안된 모델은 다양한 음악적 특징을 효과적으로 포착하여 조성의 특징과 멜로디의 다양성을 모두 갖춘 음악을 생성할 수 있음을 확인하였다.
결론
본 연구에서 제시된 SNN 모델은 인간의 음악 인지 과정을 모방하여 음악 모드와 조성을 이해하고 새로운 음악을 생성할 수 있음을 보여주었다. 이는 인공지능과 인간의 음악성 사이의 간극을 좁히는 데 기여할 수 있는 유망한 접근 방식이다. 향후 화성 학습, 감정 인식, 스타일별 작곡 등 다양한 분야에서 응용될 수 있을 것으로 기대된다.
Thống kê
본 논문에서는 음악 생성 모델 학습을 위해 Sposobin의 화성학 교과서 연습문제(SHTE) 데이터셋과 J.S. 바흐의 4성부 코랄(Bach) 데이터셋을 사용했습니다.
SHTE 데이터셋은 193개의 4성부 화성 발췌곡으로 구성되어 있으며, 장조 96곡, 단조 97곡을 포함합니다.
Bach 데이터셋은 408개의 유명한 코랄로 구성되어 있으며, 장조 219곡, 단조 189곡을 포함합니다.
모델 평가에는 생성된 샘플 50개와 SHTE 및 Bach 데이터셋에서 무작위로 추출한 샘플 50개를 사용했습니다.
생성된 음악의 품질을 평가하기 위해 음높이 개수(PC), 음급 히스토그램(PCH), 온음계 음높이 비율(DPR), 음역(PR), 음정 간격(PI), 음급 전이 행렬(PCTM) 등의 특징을 추출하여 분석했습니다.
KS 모델과의 유사도를 측정하기 위해 코사인 유사도를 계산한 결과, SHTE 데이터셋의 경우 0.93, Bach 데이터셋의 경우 0.94로 높은 유사도를 보였습니다.
Trích dẫn
"However, despite these impressive advancements, the biggest challenge remains: current techniques lack the ability to understand and generate music on a cognitive level."
"This reliance presents a significant limitation: it renders the learning process increasingly complex, diverging significantly from the intuitive and explainable learning and creative processes exhibited by human beings."
"Spiking Neural Networks (SNNs), whose neurons and learning principles more closely resemble those of the human brain, offer a potential solution to the current challenges."
"The results indicate a strong alignment between our model’s connection architecture and the Krumhansl-Schmuckler psychological key perception model."
"The model’s ability to blend well-established tonal principles with novel musical expressions underscores its potential for generating musically meaningful compositions across various styles and datasets."