核心概念
GUIDE 데이터셋은 다양한 웹 애플리케이션의 이미지, 작업 설명, 수행 동작, 추론 과정 및 공간적 위치 정보를 제공하여 멀티모달 대형 언어 모델(MLLM)의 GUI 기반 자동화 기능을 향상시키는 데 기여한다.
摘要
GUIDE 데이터셋은 로봇 프로세스 자동화(RPA) 분야에서 활용될 수 있는 새로운 데이터셋이다. 이 데이터셋은 다양한 웹사이트(Apollo, Gmail, Calendar, Canva 등)에서 수집된 이미지, 작업 설명, 마지막 수행 동작, 추론 과정(CoT), 다음 수행 동작 및 동작 실행 위치 정보를 포함한다. 이를 통해 멀티모달 대형 언어 모델(MLLM)의 GUI 기반 자동화 기능을 향상시킬 수 있다.
데이터 수집 과정은 다음과 같이 진행된다:
- 사전 데이터 수집: 다양한 고객으로부터 자동화 작업 요청을 수집하고, 이를 필터링하여 RPA에 적합한 작업을 선별한다.
- NEXTAG: 사용자의 웹 브라우저 상호작용을 자동으로 기록하고 주석을 달아 데이터를 수집하는 혁신적인 내부 도구이다.
- 품질 검사: 데이터의 정확성과 일관성을 확인하는 엄격한 품질 관리 프로세스를 거친다.
- 후처리: 데이터에 추론 과정(CoT), 이전 동작 기록, 다양한 증강 기법을 적용하여 모델 학습에 활용할 수 있도록 한다.
GUIDE 데이터셋은 작업 난이도에 따라 3단계로 구분되며, 이를 통해 단계적인 모델 학습이 가능하다. 또한 다양한 데이터 증강 기법을 적용하여 모델의 강건성과 일반화 성능을 향상시킨다.
이 데이터셋을 활용하여 개발된 V-Zen 모델은 다양한 웹 플랫폼에서 우수한 성능을 보였다. 이는 GUIDE 데이터셋이 GUI 기반 자동화 작업을 수행하는 데 필요한 핵심 역량을 갖추고 있음을 보여준다.
統計資料
다양한 웹사이트(Apollo, Gmail, Calendar, Canva 등)에서 수집된 데이터로 구성되어 있다.
각 데이터 항목에는 이미지, 작업 설명, 마지막 수행 동작, 추론 과정(CoT), 다음 수행 동작 및 동작 실행 위치 정보가 포함되어 있다.
引述
"GUIDE 데이터셋은 RPA 연구 및 개발을 촉진하기 위해 고안되었으며, 특히 LLM의 GUI 관련 작업에 초점을 맞추고 있다."
"GUIDE 데이터셋의 다중 플랫폼 특성과 다양한 웹사이트 범위를 통해 자동화 작업에 대한 크로스 인터페이스 기능을 탐구할 수 있다."