본 논문에서는 BEV 인식과 캡션 생성 작업 간의 간극을 해소하여 두 작업 모두에서 최첨단 성능을 달성하는 새로운 멀티모달 작업 정렬(MTA) 프레임워크를 제안합니다.
본 논문에서는 텍스트, 이미지, 오디오, 비디오 등 다양한 모달을 하나의 비디오 프레임 시퀀스로 변환하여 차세대 프레임 예측이라는 단일 작업으로 통합하는 새로운 멀티모달 학습 프레임워크를 제안합니다.
멀티모달 학습에서 특정 모달의 우세 현상을 게임 이론적 관점에서 해결하여 모든 모달의 기여도를 균형 있게 조절하는 MCR(Multimodal Competition Regularizer) 방법론을 제시하고, 이를 통해 단일 모달 앙상블 모델의 성능을 능가하는 멀티모달 학습의 가능성을 제시한다.
본 논문은 위성 영상 해석을 위한 멀티모달 언어 모델(MLLM)의 발전과 이러한 모델이 자연어 처리와 컴퓨터 비전을 결합하여 환경 모니터링, 도시 계획, 재난 대응과 같은 분야에 미치는 영향을 분석합니다.
본 논문에서는 비디오에서 질문에 대한 답변이 되는 구간을 찾는 비주얼 답변 지역화(VAL) 작업에서 오디오 정보를 통합하여 성능을 향상시키는 새로운 방법을 제안합니다.
음성 및 얼굴 정보를 결합한 멀티모달 학습 시스템이 단일 모달리티 시스템보다 개인 식별 및 인증 작업에서 더 뛰어난 성능을 보여주며, 특히 특징 퓨전 전략이 가장 효과적인 것으로 나타났습니다.
본 논문에서는 멀티모달 학습에서 단일 모달 의존성 문제를 해결하기 위해 분류기 기반 그래디언트 변조(CGGM) 방법을 제안하며, 이는 그래디언트의 크기와 방향을 모두 고려하여 각 모달의 활용도를 균형 있게 조절하여 멀티모달 정보를 효과적으로 활용합니다.
대규모 멀티모달 명령 데이터셋(Infinity-MM)과 오픈소스 모델 기반 합성 데이터 생성 방법을 통해 오픈소스 비전-언어 모델(Aquila-VL-2B)의 성능을 향상시켰습니다.
본 논문에서는 대규모 언어 모델(LLM)의 대화 기능과 VLA(Visual Language Action) 모델의 의사 결정 기능을 동시에 수행할 수 있는 새로운 멀티모달 모델인 VLA4CD(Visual Language Action model for Chatting and Decision Making)를 제안합니다.
MultiChartQA는 실제 멀티 차트 시나리오의 복잡성을 반영하여 기존 벤치마크보다 발전된 평가 지표를 제공하며, 멀티 차트 이해를 위한 MLLM의 능력을 평가하는 새로운 벤치마크입니다.