이 논문은 대규모 언어 모델(LLM)의 평가 방법에 대해 다룬다. 기존의 LLM 평가 방법은 주로 폐쇄적이고 도메인 특화된 벤치마크를 사용하거나 사람의 평가에 의존하는 한계가 있다. 이 논문에서는 새로운 무감독 평가 방식인 동료 평가 메커니즘을 제안한다.
이 방식에서는 오픈소스 및 폐쇄소스 LLM이 동일한 환경에 있으며, 레이블이 없는 질문에 답변하고 서로를 평가할 수 있다. 각 LLM의 응답 점수는 다른 익명의 LLM들에 의해 공동으로 결정된다.
이를 위해 각 LLM에 학습 가능한 능력 매개변수를 할당하여, 각 LLM의 능력과 점수의 일관성을 최대화하는 제약 최적화 문제를 정의한다. 이는 고수준 LLM이 저수준 LLM보다 다른 답변을 더 정확하게 평가할 수 있고, 높은 점수를 받을 수 있다는 가정에 기반한다.
또한 PEN, CIN, LIS 등 3가지 지표를 제안하여 인간 순위와의 차이를 평가한다. 실험 결과, 제안된 PiCO 프레임워크가 기존 방법보다 인간 선호도에 더 잘 부합하는 LLM 순위를 생성할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kun-Peng Nin... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2402.01830.pdfDeeper Inquiries