Core Concepts
대규모 언어 모델의 직관적 System-1 작업과 외부 Thinker 모듈의 복잡한 System-2 추론 작업을 결합하여 추론 능력을 향상시킴
Abstract
이 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 LLM과 외부 Thinker 모듈을 통합하여 이중 시스템 추론을 구현합니다. LLM은 자연어 처리와 같은 직관적인 System-1 작업을 담당하고, Thinker 모듈은 복잡한 논리 분석과 도메인 지식이 필요한 System-2 추론 작업을 처리합니다.
이 프레임워크는 9인 늑대인간 게임에 적용되었습니다. 이 게임은 직관적 언어 처리와 복잡한 전략적 추론이 모두 필요한 도전적인 과제입니다. 저자들은 18,800개의 실제 인간 게임 세션 데이터를 수집하고 분석하여 언어 특징과 지시 프로토콜을 설계했습니다. Thinker 모듈은 모방 학습, 강화 학습, 집단 기반 학습을 통해 최적화되었습니다.
실험 결과, 제안된 프레임워크는 추론 능력, 음성 생성, 온라인 게임 평가 측면에서 GPT3.5/4 방법보다 우수한 성능을 보였습니다. 또한 6B 모델을 미세 조정하여 GPT4를 능가하는 성과를 달성했습니다. 이 논문은 사회적 추론 게임 분야에서 가장 큰 데이터셋을 제공합니다.
Stats
18,800개의 실제 인간 게임 세션 데이터를 수집했습니다.
데이터셋에는 약 7,000시간의 게임 플레이와 6,000시간의 음성 데이터가 포함되어 있습니다.
약 1.4백만 자의 늑대인간 도메인 특정 말뭉치를 추가로 활용했습니다.
Quotes
"LLM 기반 에이전트는 LLM의 일반 목적 추론 능력을 활용합니다."
"LLM은 충분한 모델 규모와 상당한 계산 오버헤드가 필요하며, 복잡한 추론 및 계획 작업에 어려움을 겪습니다."
"우리는 LLM과 외부 Thinker 모듈을 통합하여 복잡한 추론 능력을 향상시킵니다."