DPI-TTS는 기존 DiT 기반 음성 합성 모델의 한계를 극복하기 위해 제안된 방법으로, 음향 특성을 고려한 방향성 패치 상호작용을 통해 빠른 학습 속도와 자연스러운 음성 합성을 달성합니다. 또한 세부적인 스타일 시간 모델링을 통해 화자 유사도를 향상시킵니다.