핵심 개념
참조 없는 평가기는 개방형 예제에 대해서는 우수한 성능을 보이지만, 폐쇄형 예제에 대해서는 부족한 능력을 보인다.
초록
이 논문은 생성된 응답의 품질을 평가하는 데 있어 참조 없는 평가기의 한계를 분석한다.
- 참조 기반 평가기는 참조 응답과의 유사도에 초점을 맞추기 때문에 다양한 합리적인 응답을 공정하게 평가하지 못한다.
- 최근 연구에서는 대규모 언어 모델(LLM)을 활용한 참조 없는 평가기가 사람의 평가와 더 잘 부합한다고 제안했다.
- 그러나 이 연구는 참조 없는 평가기의 신뢰성에 대한 종합적인 평가를 수행하지 않았다.
- 이 논문에서는 폐쇄형 예제와 적대적 예제를 포함하는 두 개의 새로운 메타 평가 데이터셋 KdConv-ADV와 DSTC7-ADV를 구축했다.
- 실험 결과, 참조 없는 평가기는 지식 부족, 비합리적인 응답 식별 능력 부족, 점수 구분 능력 부족 등의 한계를 보였다.
통계
폐쇄형 예제의 BLEU-1 점수는 14%이고, 개방형 예제의 BLEU-1 점수는 16%이다.
폐쇄형 예제의 BLEU-1 점수는 32%이고, 적대적 예제의 BLEU-1 점수는 28%이다.
인용구
"참조 기반 평가기는 참조 응답과의 유사도에 초점을 맞추기 때문에 다양한 합리적인 응답을 공정하게 평가하지 못한다."
"최근 연구에서는 대규모 언어 모델(LLM)을 활용한 참조 없는 평가기가 사람의 평가와 더 잘 부합한다고 제안했다."
"실험 결과, 참조 없는 평가기는 지식 부족, 비합리적인 응답 식별 능력 부족, 점수 구분 능력 부족 등의 한계를 보였다."