Core Concepts
음성 언어 모델은 프롬프트와 내용 정보를 활용하여 고품질 음성 합성을 수행할 수 있지만, 프롬프트와 내용 정보가 합성된 음성에 미치는 영향에 대한 체계적인 이해가 부족하다. 이 연구는 자동회귀 및 비자동회귀 음성 언어 모델을 대상으로 프롬프트 설계와 내용 정보의 영향을 실증적으로 분석하여 이에 대한 통찰을 제공한다.
Abstract
이 연구는 자동회귀(AR) 및 비자동회귀(NAR) 음성 언어 모델을 대상으로 프롬프트 기반 음성 합성 작업을 실증적으로 분석하였다.
프롬프트 특성 분석:
이질적이고 비정상적인 프롬프트는 음성 스타일 전달에 부정적인 영향을 미친다.
긴 프롬프트가 항상 더 나은 합성 결과를 보인다는 기존 연구와 달리, 프롬프트의 길이와 일관성이 중요하다.
내용 정보의 영향 분석:
내용 정보를 나타내는 의미 단위에는 음향 정보(피치, 템포, 볼륨, 강조 등)가 포함되어 있어, 이것이 합성된 음성에 영향을 미친다.
프롬프트 외에도 내용 정보가 합성된 음성의 화자 스타일에 영향을 준다.
음향 특성 분석:
AR 모델은 프롬프트의 음향 특성을, NAR 모델은 프롬프트와 내용 정보의 음향 특성을 모두 반영한다.
현재 모델들은 프롬프트를 통해 음성 템포를 제어하는 기능이 부족하다.
이 연구 결과는 향후 음성 언어 모델의 성능 향상을 위한 유용한 통찰을 제공한다.
Stats
프롬프트와 합성 음성의 피치 변화 간 피어슨 상관계수: 0.293, -0.037
프롬프트와 합성 음성의 템포 변화 간 피어슨 상관계수: 0.054, 0.822
프롬프트와 합성 음성의 볼륨 변화 간 피어슨 상관계수: 0.987, 0.025
Quotes
"이질적이고 비정상적인 프롬프트는 음성 스타일 전달에 부정적인 영향을 미친다."
"내용 정보를 나타내는 의미 단위에는 음향 정보(피치, 템포, 볼륨, 강조 등)가 포함되어 있어, 이것이 합성된 음성에 영향을 미친다."
"현재 모델들은 프롬프트를 통해 음성 템포를 제어하는 기능이 부족하다."