본 연구 논문에서는 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실질적인 문제 해결 능력을 평가하기 위해 현실 세계 시나리오를 기반으로 하는 벤치마크인 GTA(General Tool Agents)를 제안합니다.
기존 LLM 벤치마크는 AI 생성 쿼리, 단일 단계 작업, 가상 도구 및 텍스트 기반 상호 작용에 의존하여 실제 환경에서 에이전트의 성능을 정확하게 반영하지 못하는 한계를 보였습니다.
GTA는 다음 세 가지 주요 측면에서 기존 벤치마크와 차별화됩니다.
본 연구에서는 229개의 실제 작업과 실행 가능한 도구 체인을 설계하여 주류 LLM을 평가했습니다. 각 샘플은 이미지 파일 세트, 쿼리, 관련 도구 세트, 도구 체인, 최종 답변으로 구성됩니다. 쿼리는 주관적, 객관적, 이미지 생성의 세 가지 유형으로 분류됩니다.
평가 결과, 실제 사용자 쿼리는 기존 LLM에 상당한 어려움을 제시하는 것으로 나타났습니다. GPT-4는 작업의 50% 미만을 완료했으며 대부분의 LLM은 25% 미만의 성공률을 보였습니다. 특히 인수 예측에서의 어려움이 현재 LLM의 주요 병목 현상으로 밝혀졌습니다.
GTA 벤치마크는 실제 시나리오에서 LLM 기반 에이전트의 잠재력과 한계를 모두 보여줍니다. 본 연구는 범용 도구 에이전트를 발전시키기 위한 미래 연구 방향을 제시하며, 특히 인수 예측 능력 향상에 중점을 둘 것을 제안합니다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jize Wang, Z... klokken arxiv.org 11-25-2024
https://arxiv.org/pdf/2407.08713.pdfDypere Spørsmål