이 연구는 장기 음악 생성을 위한 새로운 접근법을 제시한다. 기존 모델들은 주로 10-30초 길이의 음악 세그먼트를 생성했지만, 이 모델은 4분 45초 길이의 전체 음악 트랙을 생성할 수 있다.
핵심 구성 요소:
오토인코더는 44.1kHz 오디오를 21.5Hz의 낮은 잠재 속도로 압축한다. 이를 통해 장기 시간 맥락에서 작동할 수 있는 생성 모델을 학습할 수 있다.
확산 변환기 모델은 텍스트 프롬프트, 타이밍 정보, 확산 프로세스의 현재 시간 단계를 활용하여 잠재 공간에서 음악을 생성한다. 이를 통해 구조적으로 일관된 장기 음악을 생성할 수 있다.
정량적 평가에서 제안된 모델은 기존 최신 모델보다 우수한 성능을 보였다. 주관적 평가에서도 제안 모델의 음악이 실제 음악과 유사한 수준의 품질과 구조를 가지고 있음이 확인되었다.
To Another Language
from source content
arxiv.org
Głębsze pytania