대규모 언어 모델(LLM)을 활용한 정보 검색 시스템 평가에서 LLM 기반 관련성 판단이 인간의 판단과 비교하여 통계적 유의성 측면에서 유사한 결과를 보여주는지, 그리고 LLM 판단의 신뢰성과 공정성을 향상시키기 위한 과제는 무엇인지에 대한 연구 결과를 제시합니다.