Core Concepts
제한된 인적 자원을 활용하여 대규모 언어 모델의 성능을 효과적으로 평가하는 방법을 제안한다. 최대 불일치 경쟁 기반의 자동화된 샘플 선택 메커니즘을 통해 모델 간 차이를 극대화하는 최소한의 샘플을 선별하고, 이를 바탕으로 인간 평가를 수행하여 모델의 상대적 순위를 도출한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 효율적인 인간 평가 방법을 제안한다. 기존의 자동화된 평가 지표와 LLM 기반 평가자는 인간 선호도를 정확히 반영하지 못하는 한계가 있다. 반면 인간 평가는 비용과 시간이 많이 소요되는 문제가 있다.
이를 해결하기 위해 저자들은 최대 불일치(MAD) 경쟁 기반의 샘플 선택 메커니즘을 제안한다. 이 방법은 대규모 자체 생성 지침 풀에서 LLM 간 성능 차이를 극대화하는 최소한의 정보적이고 다양한 지침을 자동으로 선별한다. 선별된 지침과 LLM 응답에 대한 인간 선호도 평가 결과를 Elo 레이팅 시스템에 적용하여 LLM의 전반적인 순위를 도출한다.
저자들은 4가지 시나리오(과학 지식 이해, 수학 추론, 창의적/기능적 작문, 코드 생성 및 설명)에서 8개의 대표적인 LLM을 평가했다. 실험 결과, 제안 방법은 LLM의 역량을 신뢰할 수 있고 합리적으로 순위화하며, 각 모델의 강점과 약점을 식별할 수 있었다. 또한 이를 통해 향후 LLM 발전을 위한 유용한 통찰을 제공한다.
Stats
실험에 사용된 8개 LLM 모델은 GPT-4-Turbo, Gemini-Pro, OpenChat-3.5, GPT-3.5-Turbo, WizardLM-13B, QWen-14B-Chat, ChatGLM3-6B, Vicuna-13B이다.
각 시나리오에서 생성된 지침 풀은 30,000개이다.
각 LLM 쌍에 대해 10개의 지침을 선별하여 총 280개의 비교 결과를 수집했다.
Quotes
"인간 평가는 항상 LLM 평가의 금기로 여겨져 왔다."
"현재 객관적인 평가 지표는 언어 품질에 대한 인간의 인식을 잘 반영하지 못한다."
"LLM 기반 평가자는 편향성과 신뢰성 문제를 가지고 있다."