본 논문에서는 대규모 언어 모델(LLM)을 사용하여 상호 작용 환경에서 '실제' 작업을 계획하고 해결하는 데 있어 새롭게 떠오르는 문제를 다룹니다. 최근 LLM은 온라인 도구와 상호 작용하고 로봇 작업을 해결하는 등 다양한 분야에서 발전을 이루었지만, 장기 추론 작업은 여전히 어려운 과제로 남아 있습니다. 이 문제를 해결하기 위한 기존 방법은 추가 데이터 또는 인간이 만든 규칙이 필요하여 리소스를 많이 사용하는 경향이 있습니다.
본 논문에서는 이러한 문제를 해결하기 위해 퓨샷 학습만을 기반으로 하는 간단한 방법인 StateAct를 제안합니다. StateAct는 LLM의 계획 및 행동을 위해 '사고의 연결'을 상태 추적으로 향상시킵니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Nikolai Roza... at arxiv.org 10-07-2024
https://arxiv.org/pdf/2410.02810.pdfDeeper Inquiries