이 논문은 대규모 언어 모델(LLM)의 문제 해결 능력을 향상시키기 위한 새로운 프레임워크인 "비평 기반 계획과 검색 보강(CR-Planner)"을 소개한다.
핵심 내용은 다음과 같다:
CR-Planner는 LLM의 추론 과정과 검색 과정을 모두 비평 모델을 통해 안내한다. 비평 모델은 각 단계에서 가장 유망한 행동을 선택하도록 돕는다.
추론 과정에서는 비평 모델이 가장 유망한 추론 단계를 선택하고, 실행 단계에서는 최적의 출력을 선택한다. 이 반복적인 과정을 통해 CR-Planner는 최종 답안에 도달한다.
비평 모델 학습을 위해 몬테카를로 트리 탐색(MCTS)을 활용하여 다양한 행동 시퀀스와 그에 따른 장기적 영향을 체계적으로 탐색한다.
CR-Planner를 경쟁 프로그래밍, 정리 기반 수학 추론, 복잡한 도메인 검색 문제 등 다양한 도메인 지식 집약적이고 추론 집약적인 과제에 적용한 결과, 기존 방법들을 크게 능가하는 성능을 보였다.
이를 통해 CR-Planner가 복잡한 과제를 해결하는 데 있어 LLM의 추론 능력과 사실적 정확성을 향상시킬 수 있음을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문