GUIDE 데이터셋은 로봇 프로세스 자동화(RPA) 분야에서 활용될 수 있는 새로운 데이터셋이다. 이 데이터셋은 다양한 웹사이트(Apollo, Gmail, Calendar, Canva 등)에서 수집된 이미지, 작업 설명, 마지막 수행 동작, 추론 과정(CoT), 다음 수행 동작 및 동작 실행 위치 정보를 포함한다. 이를 통해 멀티모달 대형 언어 모델(MLLM)의 GUI 기반 자동화 기능을 향상시킬 수 있다.
데이터 수집 과정은 다음과 같이 진행된다:
GUIDE 데이터셋은 작업 난이도에 따라 3단계로 구분되며, 이를 통해 단계적인 모델 학습이 가능하다. 또한 다양한 데이터 증강 기법을 적용하여 모델의 강건성과 일반화 성능을 향상시킨다.
이 데이터셋을 활용하여 개발된 V-Zen 모델은 다양한 웹 플랫폼에서 우수한 성능을 보였다. 이는 GUIDE 데이터셋이 GUI 기반 자동화 작업을 수행하는 데 필요한 핵심 역량을 갖추고 있음을 보여준다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Rajat Chawla... klo arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16048.pdfSyvällisempiä Kysymyksiä