Core Concepts
본 연구는 음악 트랙의 구성 요소(stems) 간 조화와 리듬의 일관성을 포착하는 대조 학습 방법인 COCOLA를 제안한다. 또한 이를 활용하여 다양한 작곡 작업을 수행할 수 있는 CompoNet이라는 새로운 작곡 모델을 소개한다.
Abstract
본 논문은 음악 오디오 표현의 일관성을 평가하기 위한 COCOLA 모델과 다양한 작곡 작업을 수행할 수 있는 CompoNet 모델을 제안한다.
COCOLA 모델은 음악 트랙의 구성 요소(stems) 간 조화와 리듬의 일관성을 포착하는 대조 학습 방법이다. 이를 위해 음악 트랙을 구성하는 하위 부분(sub-mixtures)들 간의 유사도를 최대화하고, 다른 트랙의 하위 부분들 간의 유사도는 최소화하도록 학습한다. 이를 통해 생성된 임베딩 공간에서 입력 트랙과 생성된 반주 간의 유사도를 COCOLA 점수로 정의할 수 있다.
CompoNet은 ControlNet 기반의 순차적 조건부 모델로, 기존 작곡 모델들이 부분적으로 해결했던 다양한 작곡 작업(무조건 생성, 반주 생성, 음원 분리 등)을 모두 수행할 수 있다. 이 모델은 대규모 음원 데이터셋으로 사전 학습된 AudioLDM2 모델을 미세 조정하여 구현되었다.
실험 결과, COCOLA 점수를 통해 CompoNet이 기존 MSDM 모델보다 더 일관성 있는 반주를 생성함을 확인할 수 있었다. 이는 COCOLA가 작곡 모델의 성능을 평가하는 데 효과적인 지표임을 보여준다.
Stats
반주 생성 시 CompoNet이 MSDM 모델보다 COCOLA 점수가 더 높다.
CompoNet의 COCOLA 점수는 실제 음원의 COCOLA 점수에 더 근접한다.
Quotes
"본 연구는 음악 트랙의 구성 요소(stems) 간 조화와 리듬의 일관성을 포착하는 대조 학습 방법인 COCOLA를 제안한다."
"CompoNet은 ControlNet 기반의 순차적 조건부 모델로, 기존 작곡 모델들이 부분적으로 해결했던 다양한 작곡 작업(무조건 생성, 반주 생성, 음원 분리 등)을 모두 수행할 수 있다."