이 논문은 대규모 언어 모델(LLM)을 활용한 지시 따르기 평가의 효과성을 조사한다. 저자들은 LLMBAR라는 새로운 메타 평가 벤치마크를 소개하였는데, 이는 지시 따르기 능력을 객관적으로 평가하기 위해 고안되었다.
LLMBAR는 두 가지 부분으로 구성된다. NATURAL 세트는 기존 데이터셋에서 수집 및 필터링된 인스턴스로, 객관적인 선호도 차이가 존재한다. ADVERSARIAL 세트는 저자가 직접 구축한 인스턴스로, 표면적인 품질이 우수하지만 지시를 따르지 않는 출력을 포함한다.
실험 결과, 다양한 LLM 평가자들이 LLMBAR에서 상당한 성능 차이를 보였다. 특히 ADVERSARIAL 세트에서 약한 LLM 평가자들의 성능이 매우 저조했다. 저자들은 새로운 프롬프팅 전략(Rules, Metrics, Swap)을 제안하여 LLM 평가자의 성능을 크게 향상시켰다.
이 연구는 현재 LLM 평가자의 한계를 객관적으로 보여주며, 향후 더 나은 지시 따르기 모델 및 평가 방법 개발을 위한 기반을 제공한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究