VocaLiSTのマルチモーダルTransformer動作を模倣するMTDVocaLiSTモデルが提案され、不確実性重み付けを活用して教師モデルのサイズを83.52%削減しつつ競争力のあるパフォーマンスを維持することが示された。