핵심 개념
포괄적 환경 인식(CEP)과 조건부 행동 예측(CAP)을 통해 LLM 기반 에이전트의 GUI 자동화 성능을 체계적으로 향상시킴
초록
이 논문은 LLM 기반 자율 에이전트인 CoCo-Agent를 제안합니다. CoCo-Agent는 포괄적 환경 인식(CEP)과 조건부 행동 예측(CAP)을 통해 GUI 자동화 성능을 향상시킵니다.
CEP는 텍스트 목표, 과거 행동, 시각적 채널의 상위 수준 및 세부 설명을 통합하여 GUI 인식을 향상시킵니다. CAP는 행동 유형 예측과 행동 유형에 따른 대상 예측으로 복잡한 GUI 명령을 분해합니다.
실험 결과, CoCo-Agent는 AITW와 META-GUI 벤치마크에서 새로운 최신 성능을 달성했습니다. 추가 분석을 통해 각 인지 요소의 중요성과 시각 모듈의 선택이 중요함을 보여줍니다. 또한 기존 데이터셋의 한계와 CoCo-Agent의 실제 시나리오에 대한 잠재력을 논의합니다.
통계
포괄적 환경 인식(CEP)을 통해 GUI 인식이 향상되었으며, 특히 레이아웃(+7.7%)과 행동 기록(+5.1%)이 중요한 역할을 했습니다.
조건부 행동 예측(CAP)을 통해 복잡한 GUI 명령을 효과적으로 분해할 수 있었습니다.
CoCo-Agent는 AITW와 META-GUI 벤치마크에서 새로운 최신 성능을 달성했습니다.
인용구
"포괄적 환경 인식(CEP)과 조건부 행동 예측(CAP)을 통해 LLM 기반 에이전트의 GUI 자동화 성능을 체계적으로 향상시킴"
"CoCo-Agent는 AITW와 META-GUI 벤치마크에서 새로운 최신 성능을 달성했습니다."