M3AV는 컴퓨터 과학, 수학, 의학 및 생물학 분야의 다양한 학술 강연 비디오를 포함하는 다중 양식, 다중 장르, 다목적 데이터셋이다. 이 데이터셋은 발화 및 문자 텍스트에 대한 고품질 인간 주석을 제공하여 다양한 오디오-비주얼 인식 및 이해 작업을 지원한다.