SOTOPIA는 다양한 사회적 시나리오와 목표, 캐릭터를 활용하여 인공지능 에이전트와 인간 간의 상호작용을 시뮬레이션하고 평가하는 환경이다. 이를 통해 언어 기반 에이전트의 사회적 지능을 이해하고 향상시킬 수 있다.
현대 언어 모델은 대화 상황에서 여러 가지 한계를 보이며, 이는 대화의 기본 원칙 위반에서 기인한다. 저자들은 대화 상황에서 효과적인 인간-AI 상호작용을 위한 일련의 대화 원칙을 제안한다.
대규모 언어 모델은 복잡한 과제를 해결하기 위해 사용자와의 다중 대화 및 외부 도구 활용이 필요하지만, 현재 평가 방식은 이를 간과하고 있다. MINT는 대화형 도구 활용과 자연어 피드백 활용 능력을 종합적으로 평가하는 벤치마크이다.