본 논문에서는 다양한 검색 작업, 다중 모달 쿼리 및 문서를 처리할 수 있는 범용 다중 모달 검색을 위해 다중 모달 대규모 언어 모델(MLLM)을 활용하는 방법을 제안합니다.
본 논문에서는 훈련된 대조적 이미지-텍스트 검색 모델의 오류를 추가 훈련 없이 수정하는 간단하고 효율적인 방법인 Nearest Neighbor Normalization (NNN)을 제시하며, 다양한 모델과 데이터셋에서 검색 지표의 향상을 보여줍니다.
본 논문에서는 상호 학습을 통해 다중 모달 검색 기능을 갖춘 MLLM 기반 검색기를 제안하여, 임베디드 에이전트가 이전 경험에서 얻은 다중 모달 궤적 데이터를 효과적으로 활용하여 새로운 작업을 효율적으로 수행하도록 돕는 방법을 제시합니다.