제한된 인적 자원을 활용하여 대규모 언어 모델의 성능을 효과적으로 평가하는 방법을 제안한다. 최대 불일치 경쟁 기반의 자동화된 샘플 선택 메커니즘을 통해 모델 간 차이를 극대화하는 최소한의 샘플을 선별하고, 이를 바탕으로 인간 평가를 수행하여 모델의 상대적 순위를 도출한다.