본 연구에서는 기존 인물 검색 기술의 한계를 극복하기 위해 이미지와 텍스트 정보를 동시에 활용하는 새로운 복합 인물 검색 기술을 제안하였다.
먼저, 복합 인물 검색을 위한 비용 많이 드는 데이터 주석 작업 없이도 기존 데이터를 활용하여 성능을 달성할 수 있는 제로샷 복합 인물 검색 기술을 소개하였다. 이를 위해 두 단계로 구성된 Word4Per 프레임워크를 제안하였다.
첫 번째 단계에서는 이미지-텍스트 정보 정렬을 위해 CLIP 네트워크를 fine-tuning하였다. 두 번째 단계에서는 경량화된 Textual Inversion Network (TINet)를 학습하여 이미지 정보를 의사 단어 토큰으로 변환할 수 있도록 하였다. 이를 통해 이미지와 텍스트 정보를 융합하여 인물을 검색할 수 있게 되었다.
또한 제안한 기술을 평가하기 위해 ITCPR 데이터셋을 구축하였다. 실험 결과, Word4Per 기술이 기존 방법들에 비해 10% 이상 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Djupare frågor