본 논문에서는 불완전한 모달리티를 가진 인스턴스에서도 검색을 가능하게 하는 새로운 멀티모달 검색 프레임워크인 Any2Any를 제안합니다. Any2Any는 누락된 모달리티를 채우기 위해 생성 모델을 학습할 필요 없이 교차 모달 인코더를 사용하여 기존 모달리티를 처리하고 등각 예측을 통해 유사성 점수를 보정하여 다양한 모달리티에서 효과적인 검색을 가능하게 합니다.
본 논문에서는 274년 분량의 미국 신문 이미지 데이터를 기반으로 이미지, 캡션, 시간 정보를 모두 활용하는 새로운 멀티모달 검색 과제인 TRIC를 소개하고, 이를 기반으로 진행된 대회 결과 및 데이터셋 분석 내용을 제시합니다.
본 논문은 대형 언어 모델을 활용하여 멀티모달 검색 성능을 크게 향상시키는 새로운 방법을 제안한다. 또한 대형 언어 모델을 활용한 대화형 검색 인터페이스를 개발하여 사용자 경험을 향상시킨다.