이 연구는 상징적 음악 생성 문제에 대한 새로운 접근법을 제시한다. 기존의 상징적 음악 생성 모델은 수작업으로 주석이 달린 제한적인 데이터셋에 의존했지만, 이 연구에서는 오디오 데이터에서 자동 전사된 정보를 활용하여 모델을 학습한다. 이를 통해 데이터 확장이 용이해지고 수작업 주석의 필요성이 줄어든다.
또한 SymPAC 프레임워크를 제안하여 사용자 입력을 통한 생성물 제어를 가능하게 한다. SymPAC은 프롬프트 바와 유한 상태 기계를 이용하여 사용자 입력을 효과적으로 반영한다. 이를 통해 작곡가들이 자신의 아이디어를 정밀하게 구현할 수 있다.
실험 결과, 제안된 모델은 기존 모델 대비 우수한 성능을 보였으며, 사용자 입력에 대한 제어력도 입증되었다. 특히 오디오 데이터만으로 학습한 모델이 수작업 주석 데이터로 학습한 모델과 유사한 성능을 보여, 제안 방법론의 실용성을 확인할 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문