대규모 언어 모델은 복잡한 과제를 해결하기 위해 사용자와의 다중 대화 및 외부 도구 활용이 필요하지만, 현재 평가 방식은 이를 간과하고 있다. MINT는 대화형 도구 활용과 자연어 피드백 활용 능력을 종합적으로 평가하는 벤치마크이다.