이 논문은 대규모 언어 모델(LLM)의 성능 평가에 대한 문제점을 제기하고, 이를 해결하기 위한 다중 프롬프트 평가 방법을 제안한다.
주요 내용은 다음과 같다:
기존의 단일 프롬프트 평가 방식은 모델의 성능을 정확하게 반영하지 못한다. 동일한 과제에 대해 프롬프트 문장을 달리하면 모델의 절대적 성능과 상대적 순위가 크게 달라질 수 있다.
이를 해결하기 위해 다양한 프롬프트 문장을 활용한 다중 프롬프트 평가 방법을 제안한다. 이 방법은 모델의 최대 성능, 평균 성능, 그리고 두 지표의 조합 등 다양한 평가 지표를 제공한다.
실험 결과, 기존 단일 프롬프트 평가와 다중 프롬프트 평가 간에 큰 차이가 있음을 확인했다. 이는 모델의 실제 성능을 정확하게 반영하지 못하는 단일 프롬프트 평가의 한계를 보여준다.
향후 LLM 평가 시 다중 프롬프트 접근법을 활용하여 모델의 강점과 약점을 보다 정확하게 파악할 수 있을 것으로 기대된다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések