핵심 개념
본 연구에서는 음성 분석 및 비디오 콘텐츠 제작을 위한 정확한 음소 정렬 모델을 제안한다. 비지도 학습 방식으로 인코딩된 음향 및 언어 임베딩을 사용하여 가능한 경로를 탐색하는 VAE 기반 정렬 모델을 제안한다. 또한 학습 중 국소 최적화를 피하기 위해 그래디언트 어닐링을 적용하고, 풍부하고 자세한 정보를 활용하기 위해 자기 지도 학습 기반 음향 특징과 상태 수준 언어 단위를 도입한다.
초록
본 연구에서는 음성 처리에서 중요한 과제인 음소 정렬을 다룬다. 음소 정렬은 음성 신호와 음소 또는 문자열 간의 시간 정렬을 결정하는 작업이다. 정확한 정렬은 음성의 음성학적 및 운율적 특징을 자세히 분석하고, 자막, 립싱크, 음성 편집 등의 비디오 콘텐츠를 생성하는 데 사용될 수 있다.
기존의 음소 정렬 방법으로는 GMM 기반 HMM 모델과 신경망 기반 모델이 있다. GMM-HMM 모델은 모델 표현력이 제한적이며, 신경망 기반 모델은 정확한 경계 예측이 어렵다는 문제가 있다. 또한 TTS 연구에서 개발된 정렬 모델은 자연스러운 합성 음성을 생성할 수 있지만, 정확한 음소 경계를 예측하지 못한다는 한계가 있다.
이에 본 연구에서는 VAE 기반 정렬 모델을 제안한다. 구체적으로 다음과 같은 기술을 도입한다:
- VAE 아키텍처를 통해 시간 의존적인 음향 및 언어 정보를 유지
- 학습 중 국소 최적화를 피하기 위한 그래디언트 어닐링
- 풍부한 음향 정보를 활용하기 위한 자기 지도 학습 모델 기반 음향 특징
- 음소 내부 변화를 포착하기 위한 상태 수준 언어 단위
실험 결과, 제안 모델이 기존 방법들에 비해 더 정확한 음소 경계를 생성하는 것을 확인했다. 또한 각 구성 요소의 효과를 검증하는 실험도 수행했다.
통계
제안 모델은 기존 OTA 모델에 비해 평균 절대 오차가 약 10ms 감소했다.
제안 모델은 20ms 오차 허용 기준으로 약 16%의 오류율을 보였다.
제안 모델은 50ms 오차 허용 기준으로 약 2.6%의 오류율을 보였다.
인용구
"정확한 정렬은 음성의 음성학적 및 운율적 특징을 자세히 분석하고, 자막, 립싱크, 음성 편집 등의 비디오 콘텐츠를 생성하는 데 사용될 수 있다."
"기존의 음소 정렬 방법으로는 GMM 기반 HMM 모델과 신경망 기반 모델이 있지만, 각각 모델 표현력 제한과 정확한 경계 예측 어려움이라는 문제가 있다."
"본 연구에서는 VAE 기반 정렬 모델을 제안하며, 그래디언트 어닐링, 자기 지도 학습 모델 기반 음향 특징, 상태 수준 언어 단위 등의 기술을 도입했다."