ModaVerse는 이미지, 비디오, 오디오 등 다양한 모달리티의 데이터를 이해하고 변환할 수 있는 다중 모달 대형 언어 모델(MLLM)이다. 기존 MLLM 프레임워크와 달리 어댑터 학습과 LLM-as-agent 방법론을 결합하여 효율적이면서도 유연한 접근법을 제시한다.