แนวคิดหลัก
본 논문에서는 사전 학습된 신경망 오디오 코덱(NAC) 모델의 프레임 속도를 줄이고, 이러한 저프레임 속도 토큰을 활용하여 장시간 음성 합성을 가능하게 하는 계층적 LLM 기반 TTS 모델인 HALL-E를 제안합니다.
บทคัดย่อ
HALL-E: 1분 길이의 제로샷 음성 합성을 위한 계층형 신경망 코덱 언어 모델
본 연구는 LLM 기반 TTS 모델에서 장시간 음성 합성의 과제를 해결하고자, 프레임 속도 감소와 고품질 음성 생성 간의 균형을 효과적으로 관리하는 계층적 사후 학습 프레임워크를 제안합니다.
다중 해상도 재양자화(MReQ): 사전 학습된 RVQ 모듈을 계층적으로 재구성하여 프레임 속도를 줄이는 사후 학습 프레임워크입니다. MReQ는 사전 학습된 NAC 모델에 다중 해상도 잔차 벡터 양자화(MRVQ) 모듈을 통합하고 교사-학생 증류 방식으로 학습을 계속합니다. 이를 통해 첫 번째 양자화 계층의 프레임 속도를 8Hz까지 줄입니다.
HALL-E: MReQ의 계층적 토큰을 예측하도록 설계된 계층적 LLM 기반 TTS 모델입니다. AR 모델은 8Hz 토큰을 사용하여 학습되고, NAR 모델은 MRVQ의 하위 모듈을 사용하여 학습되며, 사전 학습된 LLM 기반 TTS 모델에서 학습을 계속합니다.
MinutesSpeech: 1분 길이의 음성 합성을 위해 특별히 제작된 새로운 벤치마크 데이터 세트입니다. 훈련 세트는 자동으로 필터링되고 균형이 조정된 40,000시간의 음성 데이터로 구성됩니다. 테스트 세트는 전문가가 작성한 스크립트가 포함된 8시간 분량의 음성 데이터로 구성됩니다.