Core Concepts
SmartPlay는 LLM의 지능형 에이전트 능력을 체계적으로 평가하기 위한 도전적인 벤치마크이자 방법론을 제공한다. 6가지 다양한 게임을 통해 LLM의 9가지 핵심 능력을 평가하며, 이를 통해 LLM의 에이전트로서의 성능과 한계를 파악할 수 있다.
Abstract
SmartPlay는 LLM의 지능형 에이전트 능력을 평가하기 위한 통합적이고 확장 가능한 벤치마크이다. 6가지 게임(Bandits, Rock Paper Scissors, Hanoi, Messenger, Crafter, Minecraft)으로 구성되어 있으며, 각 게임은 LLM의 9가지 핵심 능력(장문 이해, 추론, 규칙 따르기, 계획, 일반화, 확률 이해, 상호작용 학습, 실수 처리, 공간 추론)을 독특하게 평가한다.
각 게임의 주요 특징은 다음과 같다:
Bandits: 확률 이해와 상호작용 학습 능력 평가
Rock Paper Scissors: 확률 이해, 규칙 따르기, 상호작용 학습 능력 평가
Hanoi: 객체 의존성 추론, 계획, 실수 처리 능력 평가
Messenger: 장문 이해, 추론, 2D 공간 추론 능력 평가
Crafter: 장문 이해, 상호작용 학습, 계획, 실수 처리, 일반화 능력 평가
Minecraft: 계획, 도메인 지식, 3D 공간 추론, 일반화 능력 평가
SmartPlay는 LLM의 에이전트로서의 전반적인 성능을 엄격하게 평가할 뿐만 아니라, 현재 방법론의 한계를 파악하는 데에도 도움이 될 것이다.
Stats
두 개의 슬롯머신에서 각각 p1, p2의 확률로 보상 ri를 받는다.
Rock Paper Scissors에서 각 행동에 대한 점수는 s1, s2, s3이다.
Hanoi 퍼즐에서 최소 이동 횟수는 2^n - 1번이다.
Crafter에서 2개의 나무로 작업대를, 8개의 돌로 화로를 제작할 수 있다.
Quotes
"SmartPlay는 LLM의 지능형 에이전트 능력을 체계적으로 평가하기 위한 도전적인 벤치마크이자 방법론을 제공한다."
"각 게임은 LLM의 9가지 핵심 능력을 독특하게 평가하며, 이를 통해 LLM의 에이전트로서의 성능과 한계를 파악할 수 있다."
"SmartPlay는 LLM의 에이전트로서의 전반적인 성능을 엄격하게 평가할 뿐만 아니라, 현재 방법론의 한계를 파악하는 데에도 도움이 될 것이다."