대규모 언어 모델(LLM)의 성능을 측정하는 데 있어 기존의 참조 텍스트 기반 벤치마킹 방식보다 토너먼트 방식을 사용한 직접 비교 방식이 더 효과적이며, 적은 비용으로 더 정확한 결과를 도출할 수 있다.