제한된 인적 자원을 활용하여 대규모 언어 모델의 성능을 효과적으로 평가하는 방법을 제안한다. 최대 불일치 경쟁 기반의 자동화된 샘플 선택 메커니즘을 통해 모델 간 차이를 극대화하는 최소한의 샘플을 선별하고, 이를 바탕으로 인간 평가를 수행하여 모델의 상대적 순위를 도출한다.


coremsg

대규모-언어-모델의-효율적인-인간-평가-최대-불일치-경쟁을-통한-접근


대규모 언어 모델의 효율적인 인간 평가: 최대 불일치 경쟁을 통한 접근