본 논문에서는 274년 분량의 미국 신문 이미지 데이터를 기반으로 이미지, 캡션, 시간 정보를 모두 활용하는 새로운 멀티모달 검색 과제인 TRIC를 소개하고, 이를 기반으로 진행된 대회 결과 및 데이터셋 분석 내용을 제시합니다.
본 논문은 대형 언어 모델을 활용하여 멀티모달 검색 성능을 크게 향상시키는 새로운 방법을 제안한다. 또한 대형 언어 모델을 활용한 대화형 검색 인터페이스를 개발하여 사용자 경험을 향상시킨다.