핵심 개념
대량의 데이터로 학습된 UI 제어 에이전트는 도메인 내 작업에서 높은 성능을 보이지만, 도메인 외 일반화에는 상당한 양의 데이터가 필요하며, 특히 고급 작업의 경우 데이터 증가만으로는 강력한 성능을 달성하기 어려울 수 있다.
초록
데이터 규모가 UI 제어 에이전트에 미치는 영향에 관한 연구: ANDROIDCONTROL 데이터셋 기반 분석
본 연구는 인간의 작업을 수행하기 위해 사용자 인터페이스(UI)를 제어하는 자율 에이전트의 성능에 데이터 규모가 미치는 영향을 분석합니다. 특히, 대규모 언어 모델(LLM)을 활용한 UI 제어 에이전트 개발에 초점을 맞추고, 실제 환경에서의 적용 가능성을 높이기 위해 대규모 데이터셋 ANDROIDCONTROL을 구축하고 이를 활용한 실험 결과를 제시합니다.
ANDROIDCONTROL은 인간이 Android 앱에서 수행하는 15,283개의 작업 데모로 구성된 대규모 데이터셋입니다. 833개의 Android 앱에서 수집된 14,548개의 고유한 작업을 포함하며, 각 작업에는 고급 및 저급 수준의 인간 생성 지침이 모두 포함되어 있습니다. 이는 기존 데이터셋과 비교하여 작업 복잡성 수준을 분석하고 학습 중 더 풍부한 감독을 제공합니다.
데이터 수집 과정
크라우드소싱을 통해 1년 동안 데이터를 수집했습니다.
40개의 앱 카테고리에 대한 일반적인 기능 설명을 제공하고, 크라우드워커가 직접 앱을 선택하여 작업을 수행하도록 했습니다.
작업 수행 중 실시간 스크린샷과 접근성 트리를 수집하고, 작업자는 각 단계별 저수준 지침과 함께 전체 작업에 대한 고수준 지침을 제공했습니다.
데이터셋 특징
다양한 앱 및 작업: 833개의 Android 앱과 14,548개의 고유한 작업을 포함하여 현실적인 환경을 반영합니다.
고/저수준 지침: 각 작업에 대한 고/저수준 지침을 모두 제공하여 다양한 수준의 작업 복잡성을 분석할 수 있습니다.
도메인 내/외 분할: 데이터셋을 학습, 검증 및 다양한 테스트 분할(도메인 내, 앱 미확인, 작업 미확인, 카테고리 미확인)로 나누어 도메인 일반화에 대한 분석을 가능하게 합니다.