Core Concepts
ChatGPT는 인간 평가와 유사한 수준으로 자연어 설명의 품질을 평가할 수 있다. 다만 세부적인 평가 척도에 따라 성능 차이가 존재한다.
Abstract
이 연구는 ChatGPT의 자연어 설명 품질 평가 성능을 인간 평가와 비교하였다. 논리 추론, 허위 정보 정당화, 암묵적 혐오 발언 설명 등 다양한 주제의 데이터셋을 활용하였다.
주요 결과는 다음과 같다:
ChatGPT는 이진 분류(높음/낮음) 및 3분류(높음/중간/낮음) 수준에서 인간 평가와 잘 일치하지만, 7점 척도 평가에서는 어려움을 겪음
쌍대 비교 실험에서 ChatGPT는 인간 평가와 유사한 성능을 보였으며, 특히 허위 정보 정당화 데이터셋에서 우수한 결과를 나타냄
동적 프롬프팅(유사한 예시 제공)을 활용하면 쌍대 비교 성능이 향상되었지만, 점수 예측 성능은 개선되지 않음
이 연구 결과는 ChatGPT와 같은 대규모 언어 모델이 자연어 설명 품질 평가에서 인간과 유사한 수준의 성능을 보일 수 있음을 보여준다. 다만 세부적인 평가 방식에 따라 성능 차이가 존재하므로, 적절한 활용 방안 모색이 필요할 것으로 보인다.
Stats
자연어 설명의 정보성 점수가 1에서 4 사이인 경우 '낮음', 4 이상인 경우 '높음'으로 분류할 때 ChatGPT의 F1 점수는 0.88이다.
자연어 설명의 명확성 점수가 1에서 4 사이인 경우 '낮음', 4 이상인 경우 '높음'으로 분류할 때 ChatGPT의 F1 점수는 1.0이다.
자연어 설명의 정보성 점수를 3분류(낮음/중간/높음)로 할 때 ChatGPT의 F1 점수는 0.84이다.
자연어 설명의 명확성 점수를 3분류(낮음/중간/높음)로 할 때 ChatGPT의 F1 점수는 0.90이다.
Quotes
"ChatGPT aligns better with humans in more coarse-grained scales."
"Paired comparisons and dynamic prompting (i.e., providing semantically similar examples in the prompt) improve the alignment."