核心概念
StateAct는 대규모 언어 모델(LLM)의 장기 추론 능력을 향상시키기 위해 퓨샷 학습, 목표 상기, 명시적 상태 추적을 활용하는 새로운 LLM 에이전트입니다.
摘要
StateAct: 대규모 언어 모델을 사용한 행동 및 계획을 위한 상태 추적 및 추론
본 논문에서는 대규모 언어 모델(LLM)을 사용하여 상호 작용 환경에서 '실제' 작업을 계획하고 해결하는 데 있어 새롭게 떠오르는 문제를 다룹니다. 최근 LLM은 온라인 도구와 상호 작용하고 로봇 작업을 해결하는 등 다양한 분야에서 발전을 이루었지만, 장기 추론 작업은 여전히 어려운 과제로 남아 있습니다. 이 문제를 해결하기 위한 기존 방법은 추가 데이터 또는 인간이 만든 규칙이 필요하여 리소스를 많이 사용하는 경향이 있습니다.
본 논문에서는 이러한 문제를 해결하기 위해 퓨샷 학습만을 기반으로 하는 간단한 방법인 StateAct를 제안합니다. StateAct는 LLM의 계획 및 행동을 위해 '사고의 연결'을 상태 추적으로 향상시킵니다.
퓨샷 학습: StateAct는 추가적인 훈련 데이터나 규칙 없이 퓨샷 학습만을 사용하여 효율성을 극대화합니다.
목표 상기: 에이전트에게 목표를 지속적으로 상기시켜 장기 추론 작업에서 발생하는 문제를 해결합니다.
명시적 상태 추적: 위치 및 인벤토리와 같은 에이전트의 상태를 명시적으로 추적하여 정확성을 향상시킵니다.
'상태의 연결': 목표, 상태 및 추론의 흔적을 포함하는 주석을 통해 에이전트의 추론 과정을 명확하게 보여줍니다.
Alfworld 환경에서 수행된 실험 결과, StateAct는 퓨샷 학습 기반 방법의 최첨단 기술을 능가하는 성능을 보였습니다. 특히, 이전의 최고 퓨샷 학습 방법보다 14% 높은 성공률을 달성했으며, 추가적인 훈련 데이터와 코드 실행과 같은 도구를 사용하는 방법과 비슷한 수준의 성능을 보였습니다.
또한, StateAct는 작업을 해결하는 데 필요한 단계 수 측면에서 더 효율적이며 더 긴 기간의 문제를 해결할 수 있음을 확인했습니다.