核心概念
본 논문에서는 실제 사용자 쿼리, 실제 배포된 도구 및 실제 멀티모달 입력을 특징으로 하는 범용 도구 에이전트(GTA)용 벤치마크를 제안하고, 이를 통해 주요 LLM의 실제 환경에서의 문제 해결 능력을 평가합니다.
摘要
GTA 벤치마크: 범용 도구 에이전트를 위한 새로운 지표
본 연구 논문에서는 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실질적인 문제 해결 능력을 평가하기 위해 현실 세계 시나리오를 기반으로 하는 벤치마크인 GTA(General Tool Agents)를 제안합니다.
기존 벤치마크의 한계
기존 LLM 벤치마크는 AI 생성 쿼리, 단일 단계 작업, 가상 도구 및 텍스트 기반 상호 작용에 의존하여 실제 환경에서 에이전트의 성능을 정확하게 반영하지 못하는 한계를 보였습니다.
GTA 벤치마크의 주요 특징
GTA는 다음 세 가지 주요 측면에서 기존 벤치마크와 차별화됩니다.
- 실제 사용자 쿼리: 암묵적인 도구 사용을 요구하는 간단한 실제 목표를 가진 사람이 작성한 쿼리를 사용하여 LLM이 적합한 도구를 추론하고 솔루션 단계를 계획하도록 합니다.
- 실제 배포된 도구: 인식, 작동, 논리 및 창의성 범주에 걸쳐 도구를 갖춘 평가 플랫폼을 통해 에이전트의 실제 작업 실행 성능을 평가합니다.
- 실제 멀티모달 입력: 공간 장면, 웹 페이지 스크린샷, 표, 코드 조각 및 인쇄/필기 자료와 같은 실제 이미지 파일을 쿼리 컨텍스트로 사용하여 실제 시나리오와 긴밀하게 일치시킵니다.
GTA 벤치마크 데이터셋
본 연구에서는 229개의 실제 작업과 실행 가능한 도구 체인을 설계하여 주류 LLM을 평가했습니다. 각 샘플은 이미지 파일 세트, 쿼리, 관련 도구 세트, 도구 체인, 최종 답변으로 구성됩니다. 쿼리는 주관적, 객관적, 이미지 생성의 세 가지 유형으로 분류됩니다.
주요 평가 결과
평가 결과, 실제 사용자 쿼리는 기존 LLM에 상당한 어려움을 제시하는 것으로 나타났습니다. GPT-4는 작업의 50% 미만을 완료했으며 대부분의 LLM은 25% 미만의 성공률을 보였습니다. 특히 인수 예측에서의 어려움이 현재 LLM의 주요 병목 현상으로 밝혀졌습니다.
결론 및 향후 연구 방향
GTA 벤치마크는 실제 시나리오에서 LLM 기반 에이전트의 잠재력과 한계를 모두 보여줍니다. 본 연구는 범용 도구 에이전트를 발전시키기 위한 미래 연구 방향을 제시하며, 특히 인수 예측 능력 향상에 중점을 둘 것을 제안합니다.
統計資料
GPT-4는 GTA 벤치마크에서 50% 미만의 작업 완료율을 보였습니다.
대부분의 LLM은 GTA 벤치마크에서 25% 미만의 작업 완료율을 보였습니다.
GTA 데이터셋은 229개의 실제 작업과 실행 가능한 도구 체인으로 구성됩니다.
14개의 서로 다른 도구가 벤치마크에 사용되었습니다.
대부분의 쿼리는 2~3개의 도구를 사용했습니다.
문제 해결에 필요한 단계는 2~8단계였으며, 대부분은 2~4단계가 필요했습니다.
引述
"실제 사용자 쿼리는 기존 LLM에 상당한 어려움을 제시하는 것으로 나타났습니다."
"본 연구는 범용 도구 에이전트를 발전시키기 위한 미래 연구 방향을 제시하며, 특히 인수 예측 능력 향상에 중점을 둘 것을 제안합니다."