마스크드 예측 기반 자기지도학습 방법인 마스크드 모델링 듀오(M2D)를 제안하고, 이를 확장한 M2D-X를 통해 다양한 응용 분야에 특화된 표현을 학습할 수 있는 범용 오디오 사전학습 프레임워크를 제시한다.