이 연구는 장기 음악 생성을 위한 새로운 접근법을 제시한다. 기존 모델들은 주로 10-30초 길이의 음악 세그먼트를 생성했지만, 이 모델은 4분 45초 길이의 전체 음악 트랙을 생성할 수 있다.
핵심 구성 요소:
오토인코더는 44.1kHz 오디오를 21.5Hz의 낮은 잠재 속도로 압축한다. 이를 통해 장기 시간 맥락에서 작동할 수 있는 생성 모델을 학습할 수 있다.
확산 변환기 모델은 텍스트 프롬프트, 타이밍 정보, 확산 프로세스의 현재 시간 단계를 활용하여 잠재 공간에서 음악을 생성한다. 이를 통해 구조적으로 일관된 장기 음악을 생성할 수 있다.
정량적 평가에서 제안된 모델은 기존 최신 모델보다 우수한 성능을 보였다. 주관적 평가에서도 제안 모델의 음악이 실제 음악과 유사한 수준의 품질과 구조를 가지고 있음이 확인되었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문