대형 언어 모델은 질문에 대한 답변을 생성할 때 관련성 있는 증거를 선별하는 데 어려움을 겪는다. 이 연구는 대형 언어 모델이 증거의 유용성을 판단할 수 있는지 평가하고, 유용성 판단에 영향을 미치는 요인을 분석한다.