DPI-TTS는 최근 주목받고 있는 DiT 기반 음성 합성 모델의 한계를 극복하기 위해 제안된 방법입니다. 기존 DiT 모델은 멜 스펙트로그램을 일반 이미지로 다루어 음향 특성을 간과하는 문제가 있었습니다.
DPI-TTS는 이를 해결하기 위해 다음과 같은 핵심 기능을 제공합니다:
방향성 패치 상호작용: 멜 스펙트로그램을 패치로 분할하고, 각 패치가 이전 프레임과 저주파 성분과만 상호작용하도록 설계하였습니다. 이를 통해 음향 특성을 효과적으로 모델링하면서도 학습 속도를 크게 향상시켰습니다.
세부적인 스타일 시간 모델링: 각 패치에 시간 순서대로 화자 스타일 정보를 점진적으로 반영함으로써, 고주파와 저주파 영역에서 일관된 스타일 표현을 달성하였습니다.
실험 결과, DPI-TTS는 기존 모델 대비 약 2배 빠른 학습 속도를 보이면서도 음질, 화자 유사도 등 성능 지표에서 우수한 결과를 보였습니다. 이는 DPI-TTS가 음향 특성을 효과적으로 모델링하고, 세부적인 스타일 제어 능력을 갖추고 있음을 보여줍니다.
DPI-TTS는 Transformer 기반 음성 합성 분야에 새로운 접근법을 제시하며, 향후 음성 합성 기술 발전에 기여할 것으로 기대됩니다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania