Core Concepts
대형 언어 모델은 질문에 대한 답변을 생성할 때 관련성 있는 증거를 선별하는 데 어려움을 겪는다. 이 연구는 대형 언어 모델이 증거의 유용성을 판단할 수 있는지 평가하고, 유용성 판단에 영향을 미치는 요인을 분석한다.
Abstract
이 연구는 대형 언어 모델(LLM)의 증거 유용성 판단 능력을 종합적으로 연구한다. 구체적으로:
LLM이 관련성과 유용성을 구분할 수 있는지 확인한다. 실험 결과, LLM은 관련성과 유용성을 구분할 수 있으며, 유용성 판단이 관련성 판단보다 질문 답변 생성에 더 도움이 된다.
유용성 판단 능력에 영향을 미치는 요인을 분석한다. ChatGPT가 가장 뛰어난 유용성 판단 능력을 보였으며, 모델 규모가 커질수록 성능이 향상되었다. 리스트 형식의 입력이 포인트와이즈, 페어와이즈 입력보다 우수했다. 또한 LLM은 입력 리스트에서 증거의 위치에 민감하게 반응했다.
유용성 판단이 질문 답변 생성 성능에 미치는 영향을 확인한다. LLM이 선별한 유용성 있는 증거를 사용할 때 질문 답변 성능이 가장 좋았다. 입력 리스트의 증거 순서에 의존성을 줄이기 위해 k-샘플링 리스트 접근법을 제안했다.
Stats
대형 언어 모델은 관련성 판단보다 유용성 판단에서 더 나은 성능을 보였다.
ChatGPT의 유용성 판단 F1 점수는 NQ 데이터셋에서 64.14%로, 관련성 판단 48.97%보다 높았다.
Vicuna-13B의 유용성 판단 F1 점수는 NQ 데이터셋에서 45.95%로, Vicuna-7B의 26.42%보다 73.92% 향상되었다.
Quotes
"LLM은 관련성과 유용성을 구분할 수 있으며, 유용성 판단이 관련성 판단보다 질문 답변 생성에 더 도움이 된다."
"ChatGPT가 가장 뛰어난 유용성 판단 능력을 보였으며, 모델 규모가 커질수록 성능이 향상되었다."
"LLM은 입력 리스트에서 증거의 위치에 민감하게 반응했다."