Core Concepts
ViT-TTS는 텍스트와 타겟 환경 이미지를 입력받아 타겟 환경에 맞는 고품질 음성을 합성할 수 있는 모델이다.
Abstract
이 논문에서는 ViT-TTS라는 시각적 텍스트 음성 합성 모델을 제안한다. ViT-TTS는 텍스트와 타겟 환경 이미지를 입력받아 타겟 환경에 맞는 고품질 음성을 합성할 수 있다.
모델 구조는 다음과 같다:
시각-텍스트 인코더: 텍스트 임베딩과 이미지 특징을 융합하여 고차원 특징을 추출한다.
분산 적응기: 음성 프레임의 길이를 조절한다.
스펙트로그램 디노이저: 길이 조절된 특징을 반복적으로 정제하여 최종 스펙트로그램을 생성한다.
데이터 부족 문제를 해결하기 위해 다음과 같은 기법을 사용했다:
자기 지도 학습을 통해 인코더와 디코더를 사전 학습
확장 가능한 트랜스포머 구조를 활용하여 시각 정보를 효과적으로 모델링
실험 결과, ViT-TTS는 기존 모델들을 뛰어넘는 성능을 보였으며, 적은 데이터(1h, 2h, 5h)에서도 우수한 성능을 달성했다. 이를 통해 ViT-TTS가 AR/VR 애플리케이션에 활용될 수 있음을 보였다.
Stats
타겟 환경에 맞는 고품질 음성 합성을 위해서는 시각 정보가 중요하다.
적은 데이터(1h, 2h, 5h)에서도 우수한 성능을 달성했다.
Quotes
"ViT-TTS는 텍스트와 타겟 환경 이미지를 입력받아 타겟 환경에 맞는 고품질 음성을 합성할 수 있다."
"ViT-TTS는 자기 지도 학습과 확장 가능한 트랜스포머 구조를 활용하여 데이터 부족 문제를 해결했다."