VAE 기반 그래디언트 어닐링 및 SSL 음향 특징을 활용한 정확한 음소 정렬
본 연구에서는 음성 분석 및 비디오 콘텐츠 제작을 위한 정확한 음소 정렬 모델을 제안한다. 비지도 학습 방식으로 인코딩된 음향 및 언어 임베딩을 사용하여 가능한 경로를 탐색하는 VAE 기반 정렬 모델을 제안한다. 또한 학습 중 국소 최적화를 피하기 위해 그래디언트 어닐링을 적용하고, 풍부하고 자세한 정보를 활용하기 위해 자기 지도 학습 기반 음향 특징과 상태 수준 언어 단위를 도입한다.