이 연구는 단일 악기 음악 시퀀스의 트랙 역할을 자동으로 예측하는 딥러닝 모델을 소개한다. 트랙 역할은 주선율, 부선율, 패드, 리프, 반주, 베이스 등 6가지 클래스로 구분된다.
입력 데이터로 심볼릭 도메인(MIDI)과 오디오 도메인을 모두 고려했다. 심볼릭 도메인 데이터의 경우 MusicBERT 모델을 fine-tuning하여 사용했고, 오디오 도메인 데이터의 경우 PANNs 모델을 fine-tuning하여 사용했다.
실험 결과, 심볼릭 도메인 모델의 정확도가 87%, 오디오 도메인 모델의 정확도가 84%로 나타났다. 이는 기존 수작업 방식에 비해 효율적이며, 향후 AI 음악 생성 및 분석 분야에 활용될 수 있을 것으로 기대된다.
모델 성능 분석 결과, 주선율과 부선율을 구분하는 데 어려움이 있었고, 리프 클래스가 반주나 주선율로 잘못 예측되는 경우도 있었다. 이를 개선하기 위해 다양한 음악 구조를 체계적으로 다루는 학습 전략이 필요할 것으로 보인다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문