다양한 Vision-Language Transformer를 가속화하기 위한 Multimodal Alignment-Guided Dynamic Token Pruning(MADTP) 프레임워크를 제안합니다.