이 논문은 대규모 언어 모델(LLM)의 효율적인 인간 평가 방법을 제안한다. 기존의 자동화된 평가 지표와 LLM 기반 평가자는 인간 선호도를 정확히 반영하지 못하는 한계가 있다. 반면 인간 평가는 비용과 시간이 많이 소요되는 문제가 있다.
이를 해결하기 위해 저자들은 최대 불일치(MAD) 경쟁 기반의 샘플 선택 메커니즘을 제안한다. 이 방법은 대규모 자체 생성 지침 풀에서 LLM 간 성능 차이를 극대화하는 최소한의 정보적이고 다양한 지침을 자동으로 선별한다. 선별된 지침과 LLM 응답에 대한 인간 선호도 평가 결과를 Elo 레이팅 시스템에 적용하여 LLM의 전반적인 순위를 도출한다.
저자들은 4가지 시나리오(과학 지식 이해, 수학 추론, 창의적/기능적 작문, 코드 생성 및 설명)에서 8개의 대표적인 LLM을 평가했다. 실험 결과, 제안 방법은 LLM의 역량을 신뢰할 수 있고 합리적으로 순위화하며, 각 모델의 강점과 약점을 식별할 수 있었다. 또한 이를 통해 향후 LLM 발전을 위한 유용한 통찰을 제공한다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы