다중 모달 추론 작업에서 텍스트와 이미지 정보를 효과적으로 통합하기 위해 특징 교환 메커니즘과 다중 모달 크로스 어텐션을 활용한다.
다중 모달 에이전트의 강건성을 높이기 위해 입력 정보와 하위 작업 의존성을 고려한 동적 모델 선택 방법을 제안한다.
그래프 기반 청사진 토론(BDoG)은 기존 다중 모달 추론 방식의 한계를 극복하고자 제안되었다. BDoG는 다양한 모달리티의 정보를 그래프로 구조화하고, 이를 토대로 토론을 진행함으로써 의견 단순화와 초점 이탈 문제를 해결한다.
추상 패턴 인식과 개념 추상화는 일반 지능의 핵심이지만, 현재 대형 다중 모달 모델은 이에 대한 일반화 능력이 부족하다는 것을 발견했다.