Core Concepts
한국어 TTS 음성 생성 시 통사적 및 음향적 단서를 통합적으로 활용하여 자연스러운 휴지 생성을 달성한다.
Abstract
본 연구는 한국어 TTS 음성 생성 시 발생하는 휴지 오류 문제를 해결하기 위해 통사적 및 음향적 단서를 활용하는 새로운 프레임워크를 제안한다.
통사적 단서 모델링:
문장 내 단어 간 관계를 나타내는 지역적 및 전역적 문맥 정보를 활용
1D 컨볼루션 필터, 하이웨이 네트워크, 양방향 LSTM으로 구성된 CBHL 모듈 사용
사전 훈련된 신경망 구문 분석기(NCP)를 통해 문장 구조 정보 추출
음향적 단서 모델링:
청자가 휴지 위치를 인지하는 데 활용되는 주요 음향 단서 학습
무감독 방식의 TP-GST(Target Predicted Global Style Token) 사용
통사적 및 음향적 단서의 상호작용:
두 가지 정보를 통합하여 TaKOtron2-Pro 모델 구현
학습 시 다중 손실 함수 활용(mel-spectrogram 재구성 손실, TP-GST 손실)
실험 결과, TaKOtron2-Pro 모델은 기존 모델 대비 긴 문장에서 유의미한 성능 향상을 보였으며, 특히 음성 인식 오류율(WER)이 크게 개선되었다. 이는 통사적 및 음향적 단서의 상호작용을 통해 자연스러운 휴지 생성이 가능함을 보여준다.
Stats
제안 모델의 긴 문장 합성 시 MOS 점수가 3.767로 기존 모델 대비 크게 향상되었다.
제안 모델의 긴 문장 합성 시 WER이 0.14689로 기존 모델 대비 크게 감소하였다.
Quotes
"청자는 발화 내 음향적 단서를 활용하여 의미를 파악한다. 따라서 음성 생성 시 청자가 사용하는 주요 운율적 단서를 고려해야 한다."
"통사적 정보만으로는 발화 내 휴지 위치를 정확히 예측하기 어렵다. 음향적 단서를 함께 활용해야 자연스러운 휴지 생성이 가능하다."