Concepts de base
CONTUNER은 전문가 수준의 음색과 표현력을 가진 노래를 생성하는 모델입니다. 이를 위해 음고 예측기와 표현력 향상기를 활용하여 아마추어 노래 음성을 개선합니다.
Résumé
CONTUNER은 노래 음성 아름답게 만들기(singing voice beautifying)라는 새로운 과제를 해결하기 위해 제안된 모델입니다. 이 모델은 노래 음성의 음고를 수정하고 표현력을 향상시키는 것을 목표로 합니다. 기존 방법들은 쌍대 데이터에 의존하거나 음고 수정에만 집중했지만, CONTUNER은 이러한 한계를 극복하고자 합니다.
CONTUNER의 핵심 구성요소는 다음과 같습니다:
- 음고 예측기: MIDI와 스펙트럼 포락선을 활용하여 음고 곡선을 예측합니다.
- 표현력 향상기: 아마추어 노래 음성의 표현력(노래 실력, 감정, 리듬 등)을 전문가 수준으로 향상시킵니다.
- 디노이저: 음고 예측과 표현력 향상 정보를 활용하여 멜-스펙트로그램을 생성합니다.
CONTUNER은 멜-스펙트로그램 생성 과정에서 조건을 제어하는 방식을 통해 노래 음성 아름답게 만들기를 달성합니다. 실험 결과, CONTUNER은 음고 정확도, 음질, 표현력 측면에서 우수한 성능을 보였습니다.
Stats
아마추어 노래 음성의 음고 정렬 정확도(PAA)는 DTW, CTW, KaraTuner 등 기존 방법보다 높습니다.
음질 MOS-Q는 전문가 수준 노래와 유사한 수준입니다.
표현력 MOS-E는 전문가 수준 노래보다 약간 낮지만, 아마추어 노래보다 크게 향상되었습니다.
Citations
"CONTUNER은 전문가 수준의 음색과 표현력을 가진 노래를 생성할 수 있습니다."
"CONTUNER은 기존 방법의 한계를 극복하고 노래 음성 아름답게 만들기를 달성했습니다."