Core Concepts
SpeechAlign은 음성 언어 모델의 출력을 인간의 선호도에 맞추기 위해 학습 데이터와 최적화 기법을 제안한다. 이를 통해 기존 모델의 성능을 지속적으로 향상시킬 수 있다.
Abstract
SpeechAlign은 음성 언어 모델의 성능을 향상시키기 위한 방법론이다. 먼저 기존 모델에서 발생하는 분포 격차 문제를 분석하고, 이를 해결하기 위해 인간의 선호도 데이터를 활용한다.
선호도 데이터 구축 단계에서는 실제 음성 토큰과 모델이 생성한 합성 토큰을 대비하여 선호도 데이터셋을 구축한다. 이후 다양한 선호도 최적화 기법(Chain-of-Hindsight, Direct Preference Optimization, RLHF-PPO, Best-of-N Sampling)을 적용하여 모델을 개선한다.
이 과정을 반복적으로 수행하여 약한 모델을 점진적으로 강화시킨다. 실험 결과, SpeechAlign은 음성 생성 성능을 지속적으로 향상시킬 수 있음을 보여준다. 또한 소규모 모델에서도 효과적으로 작동하며, 새로운 화자에 대해서도 일반화가 가능하다.
Stats
실제 음성 토큰과 합성 음성 토큰의 분포 차이로 인해 비자동회귀 모델의 성능이 저하된다.
선호도 최적화를 통해 실제 토큰과 합성 토큰의 분포 차이를 줄일 수 있다.
선호도 최적화 후 WER이 7.2에서 6.0으로 감소하고, 화자 유사도가 0.87에서 0.90으로 향상되었다.
Quotes
"SpeechAlign은 음성 언어 모델의 출력을 인간의 선호도에 맞추기 위해 학습 데이터와 최적화 기법을 제안한다."
"SpeechAlign은 약한 모델을 점진적으로 강화시킬 수 있음을 보여준다."