Core Concepts
대규모 언어 모델과 음악 생성 모델을 결합하여 음악 형식을 갖춘 음악을 생성할 수 있다.
Abstract
이 논문은 기존 음악 생성 모델이 1분 이상의 음악을 생성할 때 음악 형식을 학습하지 못하는 문제를 지적한다. 이를 해결하기 위해 대규모 언어 모델(LLM)과 음악 생성 모델을 결합하는 새로운 방법을 제안한다.
LLM은 음악 형식과 각 부분의 설명을 자연어로 생성하고, 음악 생성 모델은 이를 바탕으로 음악을 생성한다. 이 방법을 통해 2.5분 길이의 음악을 생성할 수 있으며, 사람이 작곡한 음악과 유사한 수준의 만족도를 얻을 수 있다.
또한 LLM을 활용하여 음악 생성 모델의 입력 프롬프트를 자동으로 최적화하는 방법도 제안한다. 이를 통해 프롬프트 엔지니어링 과정을 자동화할 수 있다.
실험 결과, 제안한 방법으로 생성된 음악은 기존 음악 생성 모델보다 우수한 것으로 나타났다. 이는 대규모 언어 모델과 음악 생성 모델을 결합하는 것이 음악 형식 생성에 효과적임을 보여준다.
Stats
제안한 방법으로 생성된 음악의 평균 MOS(Mean Opinion Score)는 3.89±1.06이다.
기존 MusicGen 모델로 생성된 음악의 평균 MOS는 3.50±1.08이다.
Pond5에서 수집한 사람이 작곡한 음악의 평균 MOS는 3.98±0.81이다.
Quotes
"대규모 언어 모델과 음악 생성 모델을 결합하면 음악 형식을 갖춘 음악을 생성할 수 있다."
"제안한 방법으로 생성된 음악의 품질은 사람이 작곡한 음악과 유사한 수준이다."
"대규모 언어 모델을 활용하여 음악 생성 모델의 입력 프롬프트를 자동으로 최적화할 수 있다."