Core Concepts
LLM 출력물을 평가하기 위해 LLM 기반 평가기를 사용할 때, 이 평가기가 사용자의 선호도와 얼마나 잘 정렬되는지 검증하는 것이 중요하다.
Abstract
이 논문은 LLM 출력물을 평가하기 위해 LLM 기반 평가기를 사용할 때 발생하는 문제를 다룹니다. LLM 기반 평가기는 LLM 자체와 같은 문제를 가지고 있어, 추가적인 사용자 검증이 필요합니다.
논문에서는 EvalGen이라는 혼합 주도 접근법을 제안합니다. EvalGen은 사용자가 평가 기준을 생성하고 구현하는 것을 돕습니다. 사용자는 LLM 출력물을 평가하고, 이 피드백을 바탕으로 EvalGen이 가장 잘 정렬된 구현을 선택합니다.
사용자 연구에서는 전반적으로 EvalGen에 대한 지지가 있었지만, 기준 설정의 주관성과 반복적인 과정이 중요하다는 것을 강조했습니다. 특히 "기준 drift" 현상이 관찰되었는데, 사용자들은 출력물을 평가하면서 기준을 정의하게 되었습니다. 또한 일부 기준은 관찰된 특정 LLM 출력물에 의존적이어서, 평가가 출력물 관찰과 독립적이라고 가정하는 접근법에 문제가 있음을 시사했습니다.
Stats
LLM 출력물의 품질을 평가하기 위해서는 많은 수동 평가가 필요하다.
코드 기반 평가와 LLM 기반 평가 모두 한계가 있다.
LLM 기반 평가기는 LLM 자체와 같은 문제를 가지고 있어, 추가적인 사용자 검증이 필요하다.
Quotes
"이것이 내가 원하는 워크플로우 지원 방식이다 - 기본적으로 AI가 80%를 수행하고, AI가 실패하면 탈출구가 있어야 한다."
"출력물을 보면서 기준을 정의하는 것이 어렵다는 것을 깨달았다."
"기준에 따라 허용되는 실패율이 다르다. 어떤 기준은 절대 실패해서는 안 되고, 다른 기준은 어느 정도 실패해도 괜찮다."