대규모 언어 모델(LLM)은 복잡한 상황에서 견고한 추론을 수행하는 데 여전히 한계가 있다. 본 연구에서는 이를 평가하기 위한 새로운 벤치마크 데이터셋 MuSR을 소개한다.
대규모 언어 모델을 활용하여 연쇄적 사고 기반의 프롬프팅 기법으로 복잡한 퍼즐을 해결하고, 앙상블 기법을 통해 성능을 향상시켰다.