MANGO 벤치마크는 ChatGPT, GPT-4 등 대규모 언어 모델의 텍스트 기반 매핑 및 내비게이션 능력을 평가한다. 53개의 복잡한 미로와 수백 개의 목적지 찾기 및 경로 찾기 질문으로 구성되어 있으며, 모델은 주어진 워크스루를 읽고 질문에 답변해야 한다. 실험 결과 GPT-4를 포함한 현재 최고의 모델들도 이 과제에서 저조한 성능을 보였다.