Core Concepts
기존 텍스트 기반 인물 검색 데이터셋은 상대적으로 거친 텍스트 주석으로 인해 실제 시나리오에서 쿼리 텍스트의 세부적인 의미를 이해하는 데 어려움이 있다. 이를 해결하기 위해 초고도 세분화 텍스트 기반 인물 검색을 위한 새로운 벤치마크 UFineBench를 제안한다.
Abstract
기존 데이터셋의 문제점:
텍스트 주석이 너무 거칠어 실제 시나리오에서 쿼리 텍스트의 세부적인 의미를 이해하기 어려움
하나의 텍스트가 여러 다른 정체성을 설명할 수 있어 텍스트와 이미지의 매칭을 정확하게 이해하기 어려움
UFineBench 데이터셋 구축:
6,926명의 정체성, 26,206장의 이미지, 52,412개의 텍스트 설명으로 구성
평균 단어 수가 80.8개로 기존 데이터셋의 3-4배 증가
다양한 도메인, 텍스트 세분화 수준, 텍스트 스타일을 포함하는 UFine3C 평가 세트 구축
새로운 평가 지표 제안:
순위 기반이 아닌 유사도 분포 기반의 mSD 지표 제안
연속적인 유사도 값을 기반으로 모델의 세부적인 검색 능력을 정확하게 측정
CFAM 모델 제안:
교차 모달 세분화 디코더와 하드 네거티브 매칭 메커니즘을 통해 세부적인 검색 능력 향상
다양한 데이터셋에서 경쟁력 있는 성능 달성
Stats
평균 텍스트 길이: 80.8단어
데이터셋 규모: 6,926명의 정체성, 26,206장의 이미지, 52,412개의 텍스트 설명