Основні поняття
WorkBench는 현실적인 직장 환경에서 에이전트의 과제 수행 능력을 평가하기 위한 벤치마크 데이터셋이다.
Анотація
WorkBench는 현실적인 직장 환경을 모방한 샌드박스 환경을 제공하며, 이 환경에는 5개의 데이터베이스, 26개의 도구, 690개의 과제가 포함되어 있다. 이 과제들은 이메일 발송, 회의 일정 관리 등의 일반적인 비즈니스 활동을 나타낸다. WorkBench의 과제들은 계획, 도구 선택, 다중 작업 등이 필요하여 도전적이다. 과제 수행 시 데이터베이스의 값이 변경되며, 각 과제에는 고유하고 명확한 정답이 있다. 이를 통해 에이전트의 행동을 자동으로 평가할 수 있는 "결과 중심 평가" 방식을 제안한다.
5개의 기존 ReAct 에이전트를 WorkBench에서 평가한 결과, 최대 43%의 과제만 성공적으로 완수할 수 있었다. 에이전트의 오류로 인해 잘못된 작업이 수행되는 경우도 있었다. WorkBench는 에이전트의 일반적인 비즈니스 활동 수행 능력의 한계를 보여주며, 이는 고위험 직장 환경에서 에이전트 사용에 대한 우려를 제기한다.
Статистика
"과제를 완수하는 데 필요한 작업 수는 최대 12개에 달한다."
"GPT-4 에이전트는 전체 과제의 43%만 성공적으로 완수할 수 있었다."
"에이전트의 오류로 인해 잘못된 작업이 수행되는 경우가 있었다."
Цитати
"WorkBench는 현실적인 직장 환경에서 에이전트의 능력을 평가하기 위한 벤치마크 데이터셋이다."
"WorkBench의 과제들은 계획, 도구 선택, 다중 작업 등이 필요하여 도전적이다."
"결과 중심 평가 방식을 통해 에이전트의 행동을 자동으로 평가할 수 있다."