GeoLLM-Engine은 지리공간 코파일럿의 개발과 평가를 위한 현실적인 환경을 제공한다. 이 환경은 다양한 지리공간 API 도구, 동적 지도/UI, 외부 멀티모달 지식베이스를 포함하고 있어, 사용자의 고수준 자연어 명령을 해석하고 과제를 완수하는 에이전트의 능력을 정확하게 평가할 수 있다. 또한 사람의 개입 없이 자동으로 벤치마크를 생성할 수 있는 기술을 도입하여, 100개의 GPT-4-Turbo 노드를 활용해 50만 개 이상의 다양한 멀티툴 과제와 110만 개의 위성 이미지로 구성된 대규모 벤치마크를 개발했다. 이를 통해 기존의 단일 과제 이미지-캡션 패러다임을 넘어서, 장기적인 자연어 명령에 대한 최신 에이전트와 프롬팅 기법의 성능을 조사할 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문