Core Concepts
LLM 평가를 위해 단일 대형 모델 대신 다양한 모델로 구성된 패널을 활용하는 것이 편향성 감소, 비용 절감, 속도 향상 등의 이점을 제공한다.
Abstract
이 논문에서는 LLM 평가를 위해 단일 대형 모델 대신 다양한 모델로 구성된 패널(PoLL)을 활용하는 방법을 제안한다. 실험 결과, PoLL은 단일 대형 모델인 GPT-4에 비해 인간 평가와의 상관관계가 더 높고, 편향성이 낮으며, 비용이 7배 이상 저렴한 것으로 나타났다. 또한 GPT-4의 경우 프롬프트 변화에 따라 성능이 크게 변동되는 것으로 관찰되었다. 이를 통해 PoLL이 LLM 평가에 효과적인 대안이 될 수 있음을 보여준다.
Stats
단일 대형 모델인 GPT-4를 사용하는 것이 7배 이상 비용이 많이 든다.
PoLL은 인간 평가와의 상관관계가 가장 높다.
GPT-4의 성능은 프롬프트 변화에 따라 크게 변동된다.
Quotes
"As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality."
"To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs."
"While this method has grown in popularity, it is costly, has been shown to introduce intra-model bias, and in this work, we find that very large models are often unnecessary."