ModaVerse는 이미지, 비디오, 오디오 등 다양한 모달리티의 데이터를 이해하고 변환할 수 있는 다중 모달 대형 언어 모델(MLLM)이다. 기존 MLLM 프레임워크와 달리 어댑터 학습과 LLM-as-agent 방법론을 결합하여 효율적이면서도 유연한 접근법을 제시한다.
다중 모달 대형 언어 모델의 추론 능력을 향상시키기 위해 외부 에이전트를 활용하여 텍스트 및 시각적 단서를 동적으로 제공하는 플러그 앤 플레이 그라운딩 프레임워크를 제안한다.
다중 모달 대규모 언어 모델의 상위 층은 지역 정보에 과도하게 집중하여 전역 의미 정보를 인코딩하는 능력이 감소한다.
다중 모달 대형 언어 모델은 단일 모달 편향(언어 편향, 시각 편향)에 과도하게 의존하여 복잡한 다중 모달 과제에서 잘못된 답변을 생성한다. 이를 해결하기 위해 인과 관계 분석 프레임워크를 제안하고, 편향을 극복하기 위한 새로운 데이터셋과 완화 전략을 소개한다.
다중 모달 대형 언어 모델은 시각적 입력에 대해 정확한 단서를 인지하지만 때로는 잘못된 내용을 생성한다. Pensieve는 유사한 이미지를 회고하고 비교하여 이러한 시각적 환각을 완화할 수 있다.
VisLingInstruct는 다중 모달 언어 모델의 제로 샷 학습 성능을 향상시키기 위해 자율적으로 텍스트 지침을 최적화하는 혁신적인 방법을 제안한다.
본 연구는 다중 모달 언어 모델의 제로 샷 학습 성능을 향상시키기 위해 자율적인 지침 최적화 기법 VisLingInstruct를 제안한다.