대규모 언어 모델(LLM)은 복잡한 상황에서 견고한 추론을 수행하는 데 여전히 한계가 있다. 본 연구에서는 이를 평가하기 위한 새로운 벤치마크 데이터셋 MuSR을 소개한다.


coremsg

gpt-4와-체인-오브-쓰잉-기법의-한계-테스트-다단계-소프트-추론


GPT-4와 체인 오브 쓰잉 기법의 한계 테스트: 다단계 소프트 추론



대규모 언어 모델을 활용하여 연쇄적 사고 기반의 프롬프팅 기법으로 복잡한 퍼즐을 해결하고, 앙상블 기법을 통해 성능을 향상시켰다.



대규모 언어 모델을 활용한 연쇄적 사고 기반의 퍼즐 해결