본 논문은 VocaLiST 모델의 멀티모달 트랜스포머 동작을 모방하여 경량화된 MTDVocaLiST 모델을 제안한다. 불확실성 가중치를 활용하여 다양한 레이어의 트랜스포머 동작을 효과적으로 학습할 수 있다.