Conceitos Básicos
Critic-CoT는 대규모 언어 모델(LLM)이 단계별 사고 연쇄 방식으로 자기 비평 및 개선을 수행하여 추론 능력을 향상시키는 새로운 프레임워크입니다.
Resumo
Critic-CoT: 사고 연쇄 비평을 통한 대규모 언어 모델의 추론 능력 향상
본 연구 논문에서는 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해 자기 비평 메커니즘을 통합하는 것을 목표로 합니다. 특히, LLM이 System-2와 유사한 비평 능력을 갖도록 유도하여 보다 정확하고 신뢰할 수 있는 추론을 가능하게 하는 Critic-CoT 프레임워크를 제안합니다.
Critic-CoT는 두 가지 주요 모듈로 구성됩니다. 첫째, 단계별 사고 연쇄 비평 형식과 원격 감독을 통해 인간의 개입 없이 자기 비평 및 개선 데이터를 자동으로 생성합니다. 둘째, 학습된 비평 능력을 활용하여 잘못된 솔루션을 필터링하거나 반복적인 개선을 통해 추론 정확도를 높입니다. 본 연구에서는 GSM8K 및 MATH 데이터 세트를 사용하여 Critic-CoT의 성능을 평가하고, 다양한 실험을 통해 그 효과를 검증합니다.