멀티모달 언어 대형 모델을 활용하여 비디오 내용과 일치하는 오디오를 자동으로 생성하는 프레임워크를 제안한다.
M2Chat은 다양한 시나리오에서 상호 작용하는 텍스트-이미지 대화를 생성할 수 있는 혁신적인 멀티모달 LLM 프레임워크이다.
프롬프트 하이라이터는 사용자가 입력 텍스트나 이미지의 특정 부분을 하이라이트하여 생성 결과를 맞춤형으로 제어할 수 있는 새로운 상호작용 방식을 제공한다.
본 논문은 비주얼 CoT라는 새로운 파이프라인을 제안하여 멀티모달 대형 언어 모델(MLLM)의 추론 기능을 향상시킨다. 이를 통해 MLLM이 시각적 입력에 대한 해석력과 복잡한 시각적 입력에 대한 처리 능력을 개선할 수 있다.
대규모 멀티모달 사전 학습을 통해 다양한 아키텍처 구성 요소와 데이터 선택의 중요성을 파악하고, 이를 바탕으로 최첨단 성능의 멀티모달 언어 모델을 구축하였다.