核心概念
대규모 언어 모델은 복잡한 과제를 해결하기 위해 사용자와의 다중 대화 및 외부 도구 활용이 필요하지만, 현재 평가 방식은 이를 간과하고 있다. MINT는 대화형 도구 활용과 자연어 피드백 활용 능력을 종합적으로 평가하는 벤치마크이다.
摘要
MINT는 대규모 언어 모델의 다중 대화 상호작용 능력을 평가하기 위해 개발되었다. 기존 평가 방식은 단일 대화 입출력 성능에 초점을 맞추어 왔지만, 실제 응용 분야에서는 사용자와의 다중 대화와 외부 도구 활용이 중요하다.
MINT는 두 가지 핵심 기능을 평가한다:
- 도구 활용을 통한 과제 해결 능력
- 자연어 피드백 활용 능력
평가 과정에서 언어 모델은 Python 코드를 생성하고 실행하여 외부 도구를 활용할 수 있다. 또한 GPT-4가 제공하는 자연어 피드백을 받아 해결책을 개선할 수 있다.
MINT는 기존 데이터셋을 재구성하여 다중 대화가 필요한 586개의 과제를 구축했다. 20개의 오픈소스 및 상용 언어 모델을 평가한 결과, 다음과 같은 발견이 있었다:
- 모든 모델이 도구 활용과 자연어 피드백을 통해 1-8%, 2-17%의 성능 향상을 보였다.
- 단일 대화 성능이 우수하다고 해서 다중 대화 성능도 우수한 것은 아니다.
- 오픈소스 모델과 상용 모델 간에 다중 대화 성능 격차가 존재한다.
- 대부분의 모델에서 지도 학습 미세조정(SIFT)과 인간 피드백 강화학습(RLHF)이 다중 대화 성능을 저하시켰다.
MINT는 다중 대화 상호작용 능력 향상을 위한 연구를 촉진하고, 특히 상용 모델에 비해 인적 평가가 제한적인 오픈소스 커뮤니티에 유용할 것으로 기대된다.
统计
약 73%의 사람-ChatGPT 대화에서 1회 이상의 다중 대화가 발생한다.
평가에 소요되는 비용은 인간 평가자 고용 대비 약 7%에 불과하다.
引用
"To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools."
"Measuring how much LLMs can benefit from both tools and natural language feedback during multi-turn interaction is essential to incentivize future research to improve LLMs' capabilities in a broader range of real-world scenarios."