Core Concepts
대형 언어 모델을 활용하여 쌍대 순위화 프롬프팅 기법을 통해 기존 방식들을 능가하는 텍스트 순위화 성능을 달성할 수 있다.
Abstract
이 논문은 대형 언어 모델(LLM)을 활용한 텍스트 순위화 문제를 다룹니다. 기존의 포인트와이즈(pointwise) 및 리스트와이즈(listwise) 접근법이 LLM의 한계로 인해 어려움을 겪는 것을 분석하고, 이를 해결하기 위해 쌍대 순위화 프롬프팅(Pairwise Ranking Prompting, PRP) 기법을 제안합니다.
PRP는 쿼리와 문서 쌍을 프롬프트에 넣어 LLM에게 상대적 순위를 판단하게 하는 방식입니다. 이를 통해 LLM의 부담을 크게 줄이고, 정확도 및 효율성 면에서 우수한 성능을 달성할 수 있습니다.
구체적으로 PRP는 다음과 같은 장점을 가집니다:
모든 문서 쌍에 대한 비교(PRP-Allpair), 정렬 기반(PRP-Sorting), 슬라이딩 윈도우(PRP-Sliding-K) 등 다양한 변형을 통해 효율성과 성능을 균형있게 달성할 수 있습니다.
TREC-DL 및 BEIR 벤치마크에서 기존 최고 성능을 능가하는 결과를 보여줍니다. 특히 상대적으로 작은 규모의 오픈소스 LLM을 활용하여 이를 달성했다는 점이 주목할 만합니다.
입력 순서에 대한 강건성, 생성 모드와 스코어링 모드 간 유사한 성능 등 PRP의 장점들을 실험적으로 확인했습니다.
이 연구는 LLM의 순위화 능력을 크게 향상시킬 수 있는 새로운 패러다임을 제시했다는 점에서 의의가 있습니다.
Stats
"LLMs are generally not specifically pre-trained or fine-tuned against ranking tasks."
"PRP-Allpair favors simple implementation (all LLM API calls can be executed in parallel), and is highly insensitive to input ordering."
"PRP-Sliding-10 with FLAN-UL2 outperforms RankGPT on all 7 BEIR datasets."
Quotes
"PRP is based on simple prompt design and naturally supports both generation and scoring LLMs APIs."
"PRP variants based on FLAN-UL2 with 20B parameters can achieve best results on all metrics on TREC-DL2020, and are only second to the blackbox, commercial gpt-4 based solution on NDCG@5 and NDCG@10 on TREC-DL2019."
"PRP-Sliding-10 with FLAN-UL2 can slightly outperform the state-of-the-art RankT5 ranker on average, and outperform RankT5 on 5 out of 7 BEIR datasets."