DPI-TTS는 최근 주목받고 있는 DiT 기반 음성 합성 모델의 한계를 극복하기 위해 제안된 방법입니다. 기존 DiT 모델은 멜 스펙트로그램을 일반 이미지로 다루어 음향 특성을 간과하는 문제가 있었습니다.
DPI-TTS는 이를 해결하기 위해 다음과 같은 핵심 기능을 제공합니다:
방향성 패치 상호작용: 멜 스펙트로그램을 패치로 분할하고, 각 패치가 이전 프레임과 저주파 성분과만 상호작용하도록 설계하였습니다. 이를 통해 음향 특성을 효과적으로 모델링하면서도 학습 속도를 크게 향상시켰습니다.
세부적인 스타일 시간 모델링: 각 패치에 시간 순서대로 화자 스타일 정보를 점진적으로 반영함으로써, 고주파와 저주파 영역에서 일관된 스타일 표현을 달성하였습니다.
실험 결과, DPI-TTS는 기존 모델 대비 약 2배 빠른 학습 속도를 보이면서도 음질, 화자 유사도 등 성능 지표에서 우수한 결과를 보였습니다. 이는 DPI-TTS가 음향 특성을 효과적으로 모델링하고, 세부적인 스타일 제어 능력을 갖추고 있음을 보여줍니다.
DPI-TTS는 Transformer 기반 음성 합성 분야에 새로운 접근법을 제시하며, 향후 음성 합성 기술 발전에 기여할 것으로 기대됩니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xin Qi, Ruib... at arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.11835.pdfDeeper Inquiries