Core Concepts
대화형 언어 모델을 활용한 문서 순위화 시, 이진 관련성 레이블 대신 세분화된 관련성 레이블을 제공하면 순위화 성능이 크게 향상된다.
Abstract
이 연구는 대화형 언어 모델을 활용한 문서 순위화 기법을 제안한다. 기존 연구에서는 문서의 관련성을 "관련" 또는 "관련 없음"의 이진 레이블로 평가했지만, 이 연구에서는 "매우 관련", "다소 관련", "관련 없음" 등 세분화된 관련성 레이블을 제공하여 모델의 성능을 향상시켰다.
실험 결과, 세분화된 관련성 레이블을 활용한 방식이 이진 레이블을 사용한 방식보다 NDCG@10 기준으로 평균 2% 이상 높은 성능을 보였다. 이는 세분화된 레이블이 모델로 하여금 문서의 부분적인 관련성을 더 잘 구분할 수 있게 해주기 때문인 것으로 분석된다.
또한 관련성 레이블의 개수를 늘리는 것이 반드시 성능 향상으로 이어지지는 않는다는 점을 확인했다. 관련성 레이블이 4개 이상이 되면 오히려 성능이 저하되는 경향을 보였다. 이는 대화형 언어 모델이 지나치게 세분화된 레이블을 이해하는 데 어려움을 겪기 때문인 것으로 해석된다.
Stats
"문서가 쿼리와 매우 관련이 있다."
"문서가 쿼리와 다소 관련이 있다."
"문서가 쿼리와 관련이 없다."
Quotes
"세분화된 관련성 레이블을 제공하면 대화형 언어 모델이 부분적으로 관련된 문서를 더 잘 구분할 수 있다."
"관련성 레이블의 개수가 4개 이상이 되면 오히려 성능이 저하되는 경향이 있다."