멀티모달 언어 대형 모델을 활용하여 비디오 내용과 일치하는 오디오를 자동으로 생성하는 프레임워크를 제안한다.
비디오 내 다중 장면 인식을 통해 오디오 생성의 정확성과 관련성을 향상시킬 수 있다.