Core Concepts
대화형 검색 모델의 성능을 향상시키기 위해 대화형 검색 세션 데이터를 자동으로 생성하는 방법을 제안한다.
Abstract
이 논문은 대화형 검색 모델의 성능을 향상시키기 위해 대화형 검색 세션 데이터를 자동으로 생성하는 방법을 제안한다.
- 대화형 검색은 사용자가 검색 엔진과 상호작용하며 정보를 찾는 방식이다. 그러나 기존 데이터셋의 부족으로 대화형 검색 모델의 성능이 제한적이다.
- 이를 해결하기 위해 저자들은 대화형 검색 세션 데이터를 자동으로 생성하는 ConvSDG 프레임워크를 제안한다.
- ConvSDG는 대화 수준과 질의 수준에서 대화형 검색 세션 데이터를 생성한다.
- 대화 수준에서는 주제 정보를 활용하여 전체 대화 세션을 생성하고, 질의 수준에서는 기존 질의를 재작성하여 다양성을 높인다.
- 생성된 데이터를 활용하여 대화형 밀집 검색 모델을 fine-tuning하고, 실험 결과 기존 모델 대비 성능이 향상되었다.
Stats
대화형 검색 데이터셋의 부족으로 기존 모델의 성능이 제한적이다.
제안 방법을 통해 생성된 데이터를 활용하면 기존 모델 대비 MRR이 최대 25.5%, NDCG@3가 최대 22.0%, Recall@100이 최대 17.2% 향상되었다.
Quotes
"Conversational search provides a more convenient interface for users to search by allowing multi-turn interaction with the search engine."
"The central hurdle lies in accurately understanding users' genuine search intent, given that their queries are context-dependent and prone to linguistic issues like omission, coreference, and ambiguity."
"The recent success of large language models (LLMs), which excel in generating texts, has brought notable advancements to the field of information retrieval."