Core Concepts
TURKINGBENCH는 웹 페이지 내 다양한 모달리티의 정보를 활용하여 복잡한 과제를 해결하는 웹 기반 에이전트의 성능을 평가하기 위한 벤치마크이다.
Abstract
TURKINGBENCH는 웹 페이지 기반의 158개 과제로 구성된 벤치마크이다. 각 과제는 텍스트, 이미지, 표 등 다양한 모달리티의 정보를 포함하고 있으며, 사용자가 웹 페이지 내에서 수행해야 하는 복잡한 상호작용을 요구한다. 이를 통해 웹 기반 에이전트의 다중 모달 이해 및 상호작용 능력을 종합적으로 평가할 수 있다.
TURKINGBENCH는 기존 벤치마크와 달리 실제 크라우드소싱 플랫폼에서 수집된 과제를 활용하여 보다 자연스러운 과제 구성을 제공한다. 또한 과제 해결을 위한 다양한 액션(텍스트 입력, 체크박스 선택 등)을 정의하여 에이전트의 상호작용 능력을 종합적으로 평가할 수 있다.
실험 결과, 최신 언어 모델들은 TURKINGBENCH의 과제를 무작위 수준 이상으로 해결할 수 있지만, 여전히 상당한 개선의 여지가 있음을 보여준다. 이를 통해 TURKINGBENCH가 웹 기반 에이전트 개발을 위한 유용한 벤치마크가 될 것으로 기대된다.
Stats
웹 페이지 내 과제 해결을 위해 다양한 액션(텍스트 입력, 체크박스 선택 등)이 필요하다.
최신 언어 모델들은 TURKINGBENCH의 과제를 무작위 수준 이상으로 해결할 수 있지만, 여전히 상당한 개선의 여지가 있다.
Quotes
"TURKINGBENCH는 웹 페이지 내 다양한 모달리티의 정보를 활용하여 복잡한 과제를 해결하는 웹 기반 에이전트의 성능을 평가하기 위한 벤치마크이다."
"TURKINGBENCH는 실제 크라우드소싱 플랫폼에서 수집된 과제를 활용하여 보다 자연스러운 과제 구성을 제공한다."