핵심 개념
대화형 언어 모델의 지시 따르기 능력을 verbalizer 조작을 통해 체계적으로 평가할 수 있다.
초록
이 논문은 대화형 언어 모델의 지시 따르기 능력을 평가하기 위한 새로운 프레임워크인 verbalizer 조작을 제안한다. 이 방법은 모델의 사전 지식과 지시 간의 정렬 수준을 자연스러운, 중립적, 비자연스러운 세 가지 수준으로 조절할 수 있다.
실험 결과, 모델 규모가 커질수록 자연스러운 및 중립적 지시에 대한 성능이 향상되지만, 비자연스러운 지시에 대해서는 모델 간 성능 차이가 크게 나타났다. 심지어 강력한 GPT-4 모델도 가장 어려운 verbalizer에서는 무작위 추측 수준의 성능밖에 보이지 않았다. 이는 현재 대화형 언어 모델들이 여전히 사전 지식과 상충되는 지시를 따르는 데 근본적인 한계가 있음을 보여준다.
통계
모델 규모가 커질수록 자연스러운 및 중립적 지시에 대한 성능이 향상된다.
비자연스러운 지시에 대해서는 모델 간 성능 차이가 크게 나타났다.
GPT-4와 같은 강력한 모델도 가장 어려운 verbalizer에서는 무작위 추측 수준의 성능을 보였다.
인용구
"Even the strongest GPT-4 model struggles to perform better than random guessing on the most challenging verbalizer, emphasizing the need for continued advancements to improve their instruction-following abilities."
"When model scales to larger sizes, they still have difficulty in following instructions contradicting to prior knowledge even though they are allowed to output intermediate reasoning steps."