이 연구는 단일 악기 음악 시퀀스의 트랙 역할을 자동으로 예측하는 딥러닝 모델을 소개한다. 트랙 역할은 주선율, 부선율, 패드, 리프, 반주, 베이스 등 6가지 클래스로 구분된다.
입력 데이터로 심볼릭 도메인(MIDI)과 오디오 도메인을 모두 고려했다. 심볼릭 도메인 데이터의 경우 MusicBERT 모델을 fine-tuning하여 사용했고, 오디오 도메인 데이터의 경우 PANNs 모델을 fine-tuning하여 사용했다.
실험 결과, 심볼릭 도메인 모델의 정확도가 87%, 오디오 도메인 모델의 정확도가 84%로 나타났다. 이는 기존 수작업 방식에 비해 효율적이며, 향후 AI 음악 생성 및 분석 분야에 활용될 수 있을 것으로 기대된다.
모델 성능 분석 결과, 주선율과 부선율을 구분하는 데 어려움이 있었고, 리프 클래스가 반주나 주선율로 잘못 예측되는 경우도 있었다. 이를 개선하기 위해 다양한 음악 구조를 체계적으로 다루는 학습 전략이 필요할 것으로 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Changheon Ha... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13286.pdfDeeper Inquiries