MINT는 동결된 사전 학습 오디오 인코더와 대형 언어 모델을 활용하여 오디오-언어 사전 학습을 개선하고, 지시 튜닝을 통해 다양한 오디오-텍스트 이해 및 생성 작업에 효과적으로 적용할 수 있는 범용 오디오-언어 모델을 개발한다.