Core Concepts
LLM 에이전트의 계획 오류를 탐지하고 이해하기 위해 제안된 PDoctor 프레임워크
Abstract
PDoctor는 LLM 에이전트의 계획 오류를 탐지하고 이해하기 위한 새로운 프레임워크입니다. 이 프레임워크는 다음과 같은 주요 구성 요소를 포함합니다:
사용자 쿼리 합성: PDoctor는 도메인 특정 언어(DSL)를 사용하여 다양한 사용자 쿼리를 합성합니다. 이 쿼리는 LLM 에이전트가 수행해야 할 일련의 작업을 설명합니다.
테스트 결과 확인: PDoctor는 합성된 사용자 쿼리에서 도출된 제약 조건을 사용하여 LLM 에이전트의 계획이 올바른지 확인합니다. 에이전트의 계획이 제약 조건을 위반하면 계획 오류로 간주됩니다.
오류 분석: PDoctor는 오류를 유발한 사용자 쿼리를 변형하여 오류의 근본 원인을 파악할 수 있습니다. 이를 통해 LLM 에이전트의 계획 오류 특성을 이해할 수 있습니다.
PDoctor는 세 가지 주요 LLM 에이전트 프레임워크(ReAct, OpenAI Tools, OpenAI Assistant)와 두 가지 강력한 LLM(GPT-3.5, GPT-4)을 사용하여 평가되었습니다. 결과에 따르면 PDoctor는 다양한 계획 오류를 효과적으로 탐지할 수 있으며, 에이전트 개발자와 사용자에게 유용한 통찰력을 제공합니다.
Stats
LLM 에이전트 프레임워크에서 생성된 테스트 케이스 수: 843 ~ 1,168개
탐지된 계획 오류 비율: 22.22% ~ 61.57%
Z3 솔버 호출 횟수: 16,253 ~ 133,008회
Z3 솔버 실행 시간: 5.03 ~ 34.30초
사용자 쿼리 합성 시간: 11.73 ~ 59.13초
LLM 에이전트 실행 시간: 57.12 ~ 59.54분