Core Concepts
대화형 검색 모델의 성능 향상을 위해 대화형 세션 데이터를 자동으로 생성하는 방법을 제안한다.
Abstract
이 논문은 대화형 검색 모델의 성능 향상을 위해 대화형 세션 데이터를 자동으로 생성하는 방법을 제안한다. 대화형 검색은 사용자와 검색 엔진 간의 다단계 상호작용을 통해 정보 요구를 해결하는 새로운 검색 패러다임이다. 그러나 대화형 검색 모델의 성능은 학습 데이터의 부족으로 제한되어 왔다.
이 연구에서는 대화형 세션 데이터를 자동으로 생성하기 위해 대규모 언어 모델(LLM)의 강력한 텍스트 생성 기능을 활용한다. 구체적으로 다음과 같은 두 가지 접근법을 제안한다:
대화 수준 세션 생성: LLM을 활용하여 전체 대화 세션을 한 번에 생성하며, 가상의 관련성 피드백을 활용하여 학습 신호를 생성한다.
질의 수준 증강: LLM을 활용하여 기존 질의를 다양한 방식으로 재작성하고, 기존 관련성 판단을 활용하여 학습 신호를 생성한다.
이렇게 생성된 데이터를 활용하여 대화형 밀집 검색 모델을 미세 조정한다. 4개의 널리 사용되는 대화형 검색 데이터셋에 대한 실험 결과, 제안 방법이 기존 방법들에 비해 우수한 성능을 보였다. 이는 자동 생성 데이터가 대화형 검색 모델 학습에 효과적임을 입증한다.
Stats
대화형 검색 데이터셋의 평균 질의 수는 약 150개이다.
제안 방법은 CAsT-21 데이터셋에서 MRR 기준 25.5%, NDCG@3 기준 22.0%, Recall@100 기준 17.2% 향상된 성능을 보였다.
Quotes
"대화형 검색은 사용자와 검색 엔진 간의 다단계 상호작용을 통해 정보 요구를 해결하는 새로운 검색 패러다임이다."
"대화형 검색 모델의 성능은 학습 데이터의 부족으로 제한되어 왔다."
"대규모 언어 모델(LLM)의 강력한 텍스트 생성 기능을 활용하여 대화형 세션 데이터를 자동으로 생성할 수 있다."