Core Concepts
웹 작업을 수행하기 위해 동적으로 정책을 구성하는 SteP 방법론을 제안한다.
Abstract
이 논문은 웹 작업을 수행하기 위한 새로운 접근법인 SteP(Stacked LLM Policies for Web Actions)를 제안한다. SteP는 Markov 결정 프로세스(MDP)를 기반으로 하며, 상태는 정책 스택으로 표현된다. 정책 스택은 동적으로 변화하며, 각 정책은 웹 페이지에 직접 작용하거나 다른 정책을 호출할 수 있다.
SteP의 주요 특징은 다음과 같다:
동적 구성: 관찰에 따라 정책이 동적으로 구성된다. 각 정책의 행동 공간에 따라 가능한 제어 상태 공간이 정의된다.
확장성: 새로운 정책을 추가하는 것이 쉽다. 사용자는 정책에 대한 프롬프트를 구성하고 라이브러리에 추가하면 된다.
모듈성: 각 정책은 자신이 해결하는 하위 문제의 로컬 컨텍스트만 추적한다. 정책이 종료되면 이전 정책에 제어권을 반환한다.
SteP는 WebArena, MiniWoB++, 항공사 CRM 등 다양한 웹 환경에서 평가되었다. WebArena에서 SteP는 이전 최신 기술 대비 성능이 향상되었고(0.15 → 0.36), MiniWoB++에서도 경쟁력 있는 성능을 보였다. 또한 SteP는 더 적은 토큰을 사용하여 비용 효율적이었다.
Stats
웹 작업을 수행하기 위해서는 복잡한 조합의 작업과 웹 인터페이스 간 변동성을 다루어야 한다.
단일 LLM 정책으로는 모든 가능한 행동과 상태를 다루기 어렵다.
정책 분해를 통해 이 문제를 해결할 수 있지만, 정책 간 제어권 이양을 신중히 다뤄야 한다.
Quotes
"Simply specifying a large prompt to handle all possible behaviors and states is extremely complex, and results in behavior leaks between unrelated behaviors."
"Decomposition to distinct policies can address this challenge, but requires carefully handing off control between policies."