이 연구는 대화형 AI 챗GPT의 추론 능력을 평가하기 위해 주장 검증 맥락에서 실험을 수행했다. 연구진은 주장과 증거 쌍을 논리적 추론 단계로 분해하는 새로운 프레임워크를 제안했다. 이를 바탕으로 위키피디아 기반 데이터셋과 트위터 루머 데이터셋을 구축했다.
실험 결과, 챗GPT는 단순한 사실 확인에는 잘 수행했지만 복잡한 추론이 필요한 루머 검증에서 어려움을 겪었다. 특히 가설적 추론(abductive reasoning)이 필요한 경우 성능이 낮았다. 다만 수동 체인 추론(manual chain of thought) 방식을 사용하면 성능이 일부 개선되었다.
이 연구는 챗GPT의 추론 능력이 인간과 같지 않다는 점을 보여주며, 특히 중요한 실제 세계 과제에서 LLM의 능력을 엄격히 평가해야 한다는 점을 시사한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問