객체 추적 모델을 활용하여 이미지 간의 거친 대응 관계를 추출하고 이를 시각적 프롬프트로 활용하면, 멀티모달 언어 모델의 시공간 추론 능력을 효과적으로 향상시킬 수 있다.
SKETCHPAD는 멀티모달 언어 모델(LMM)이 시각적 스케치를 생성하고 활용하여 복잡한 수학 및 시각적 추론 작업을 해결하도록 하여 성능을 향상시키는 프레임워크입니다.
Mini-Omni는 실시간 음성 상호 작용을 위해 특별히 설계된 최초의 오픈 소스 멀티모달 대형 언어 모델로, 텍스트 기반 추론 능력을 음성 모달리티로 효율적으로 전이하여 실시간 스트리밍 출력을 지원합니다.
본 논문에서는 시각 및 음성 입력을 통합하는 멀티모달 언어 모델(LLM)이 미세 조정된 교차 모달 시간적 이해, 특히 음성 및 비디오 스트림에서 이벤트를 상호 연관시키는 데 어려움을 겪고 있는 문제를 해결하기 위해 새로운 데이터 세트인 OCTAV와 모델인 OMCAT를 제안합니다.