MT-Bench-101은 대규모 언어 모델(LLM)의 다중 턴 대화 능력을 세분화하여 평가하기 위해 특별히 설계된 벤치마크로, LLM의 대화 능력을 다각적으로 분석하고 개선 방향을 제시합니다.
단일 프롬프트 평가로는 대규모 언어 모델의 성능을 정확하게 평가할 수 없으며, 다양한 프롬프트 문장을 활용한 다중 프롬프트 평가가 필요하다.